烈冰NovelBrain®云平臺(tái)自上線以來(lái),接受了眾多科研團(tuán)隊(duì)的全方位、多層次的平臺(tái)功能和安全測(cè)試,同時(shí)也在烈冰內(nèi)部的真實(shí)工作環(huán)境中不斷經(jīng)受考驗(yàn),期間經(jīng)過(guò)兩次慎重的系統(tǒng)更新,平臺(tái)成功從V1.0升級(jí)到V3.0,在網(wǎng)絡(luò)圖繪制、彈性結(jié)果報(bào)告和人重分析加速等各方面給用戶帶來(lái)驚喜體驗(yàn)。同時(shí),我們也在更嚴(yán)苛的壓力測(cè)試中不斷對(duì)系統(tǒng)進(jìn)行改進(jìn),做懂科研的生信云平臺(tái)。
為進(jìn)一步提升平臺(tái)的用戶體驗(yàn),打造行業(yè)一流的生信自動(dòng)化大數(shù)據(jù)分析系統(tǒng),烈冰隆重推出NovelBrain®云平臺(tái)的全新升級(jí)版本V4.0,升級(jí)內(nèi)容包括分析工具更新和pipeline優(yōu)化、系統(tǒng)底層架構(gòu)的優(yōu)化、組學(xué)研究的全面加速、生物數(shù)據(jù)的壓縮存儲(chǔ)以及數(shù)據(jù)庫(kù)的完備和管理升級(jí),全方位保證您的數(shù)據(jù)安全和分析效率,助力您的科學(xué)研究。
1、分析工具豐富和pipeline優(yōu)化
NovelBrain云計(jì)算系統(tǒng)可以幫助快速準(zhǔn)確地進(jìn)行各組學(xué)分析,包括人類(lèi)重測(cè)序、基因組測(cè)序、全轉(zhuǎn)錄組測(cè)序、miRNA測(cè)序、表觀遺傳測(cè)序、微生物測(cè)序等幾乎全部二代測(cè)序類(lèi)型。事實(shí)上如果出現(xiàn)新的測(cè)序技術(shù)或工具,烈冰會(huì)第一時(shí)間將其添加至NovelBrain平臺(tái),進(jìn)行分析測(cè)試并用于實(shí)際生產(chǎn)。
豐富的分析工具和標(biāo)準(zhǔn)流程化的pipeline是進(jìn)行數(shù)據(jù)分析的“物質(zhì)基礎(chǔ)”,NovelBrain V4.0對(duì)新開(kāi)發(fā)的分析工具進(jìn)行了整合,并進(jìn)一步優(yōu)化了多組學(xué)分析流程:
(1)分析工具全新整合
NovelBrain在作為烈冰生產(chǎn)系統(tǒng)的過(guò)程中,不斷地上線并積累各類(lèi)數(shù)據(jù)分析工具,截止V4.0版本已包含400多個(gè)分析工具,其中很多分析工具譬如RnaSeqMap,一個(gè)工具就包含了hisat2、star、mapsplice、tophat這4個(gè)分析軟件。因此實(shí)際整合軟件數(shù)量1000+,不僅包含二代測(cè)序分析軟件,還覆蓋GWAS相關(guān)、motif預(yù)測(cè)、基因注釋等多個(gè)生物信息領(lǐng)域。
NovelBrain本次升級(jí)新增了Diamond、fq2fa、fa2fq、seqSample、seq2tab、multiBamSummary、gff2tab、sedBy2List、tsv2csv、csv2tsv、SpeciesIndex_miRNA、sRNADetect、sRNATarget、cuffqaunt_cuffnorm、map_stat等新開(kāi)發(fā)的分析工具,極大地拓展了數(shù)據(jù)分析的可能性,滿足不同需求層次生信分析人員的要求,高效實(shí)現(xiàn)自助式數(shù)據(jù)分析,輕松探索發(fā)現(xiàn)數(shù)據(jù)意義。
隨著生物信息的發(fā)展,烈冰也在不斷向系統(tǒng)添加更多的工具。而已上線的工具,在使用過(guò)程中也對(duì)某些參數(shù)的使用場(chǎng)景理解更為深刻,從而不斷得到優(yōu)化。
(2)pipeline優(yōu)化
豐富的工具只是保證數(shù)據(jù)分析可進(jìn)行的第一步,想要漂亮的分析數(shù)據(jù),還需要完善pipeline支持。譬如DnaSeqMap、FastqFilter這兩個(gè)工具,其在人類(lèi)重測(cè)序分析和在miRNA分析中的參數(shù)設(shè)置都是不一樣的,因此NovelBrain V4.0不僅對(duì)不同Pipeline中工具的參數(shù)都針對(duì)性地進(jìn)行了優(yōu)化,對(duì)不同的分析流程還加入了經(jīng)過(guò)實(shí)際生產(chǎn)甚至實(shí)驗(yàn)驗(yàn)證的調(diào)優(yōu)。
例如在有參轉(zhuǎn)錄組分析的pipeline中添加了lncRNA檢測(cè)和分析,從而獲得更豐富的轉(zhuǎn)錄組數(shù)據(jù),便于后續(xù)的聯(lián)合分析,對(duì)數(shù)據(jù)進(jìn)行深度挖掘:
LncRNA的基因富集分析和靶向分析
Liu et al., Nat Commun, 2016/ Miao X et al., Sci Rep, 2016
同時(shí),NovelBrain V4.0還在無(wú)參轉(zhuǎn)錄組pipeline中添加了基因預(yù)測(cè)和序列分步聚類(lèi),使各樣品中表達(dá)豐度較低的轉(zhuǎn)錄本組裝得更完整,準(zhǔn)確發(fā)現(xiàn)潛在的功能基因,為下一步研究提供方向。
另外,V4.0針對(duì)性地對(duì)人類(lèi)全基因組/外顯子組 pipeline中的GATK-Best-Practice部分工具參數(shù)進(jìn)行了調(diào)整,增加了FreeBayes對(duì)最后結(jié)果的校正,使流程化分析更智能,全方位保證數(shù)據(jù)質(zhì)量。
圖片來(lái)源:GitHub
(https://github.com/chapmanb/bcbb/blob/master/posts/cancer_validation.org)
2、系統(tǒng)底層架構(gòu)優(yōu)化
云計(jì)算系統(tǒng)是一個(gè)復(fù)雜的分布式系統(tǒng),新上線的系統(tǒng)在設(shè)計(jì)編碼之初很難完整地覆蓋到各種異常場(chǎng)景。因此在長(zhǎng)時(shí)間高負(fù)載運(yùn)行時(shí),總是會(huì)出現(xiàn)各種各樣的異常錯(cuò)誤,從而影響數(shù)據(jù)的安全和分析結(jié)果的準(zhǔn)確度。
NovelBrain云計(jì)算系統(tǒng)一方面在編碼上有嚴(yán)格的規(guī)范,要求測(cè)試代碼的覆蓋度超過(guò)70%,同時(shí)烈冰也從2013年起,就將NovelBrain作為自己的生產(chǎn)系統(tǒng)實(shí)際用于二代測(cè)序數(shù)據(jù)的分析,目前日均分析500GB,峰值數(shù)TB以上的測(cè)序數(shù)據(jù),系統(tǒng)自然地處于長(zhǎng)期的壓力環(huán)境下,很多問(wèn)題會(huì)及時(shí)暴露并得到修正。
在長(zhǎng)期的生產(chǎn)環(huán)境壓力運(yùn)行狀態(tài)下,我們解決和優(yōu)化了大量的問(wèn)題,如:
(1)任務(wù)異常crash自動(dòng)重跑
很多工具在運(yùn)行時(shí)會(huì)異常crash,包括jvm虛擬機(jī)崩潰、系統(tǒng)異常崩潰、機(jī)器宕機(jī)等多種情況,這些情況不僅會(huì)導(dǎo)致數(shù)據(jù)丟失,對(duì)數(shù)據(jù)安全造成威脅,同時(shí)還需要人工檢查crash的原因,增加運(yùn)行成本。針對(duì)這種情況,NovelBrain技術(shù)團(tuán)隊(duì)在 V4.0版本新增運(yùn)行任務(wù)實(shí)時(shí)監(jiān)控功能,如果偵測(cè)到異常crash,則會(huì)將任務(wù)重新投遞并運(yùn)行,節(jié)省時(shí)間和人力。同時(shí),對(duì)于因參數(shù)設(shè)置原因?qū)е碌娜蝿?wù)出錯(cuò),系統(tǒng)會(huì)將其與異常crash有效區(qū)分,記錄至數(shù)據(jù)庫(kù)并供生信工程師查閱,及時(shí)發(fā)現(xiàn)錯(cuò)誤并糾正。
(2)運(yùn)行內(nèi)存超出預(yù)設(shè)引起的crash
部分工具在運(yùn)行時(shí),請(qǐng)求的內(nèi)存大小會(huì)超過(guò)虛擬機(jī)預(yù)設(shè)的內(nèi)存。根據(jù)一般的linux機(jī)制,系統(tǒng)會(huì)將這種超出內(nèi)存使用范圍的進(jìn)程殺死,而這會(huì)引起結(jié)果異常并很難判斷哪個(gè)步驟出現(xiàn)問(wèn)題,因此在NovelBrain V4.0中我們關(guān)閉了這個(gè)設(shè)定,并重新配置了虛擬機(jī),不允許進(jìn)程使用超過(guò)虛擬機(jī)設(shè)置的內(nèi)存,從而避免進(jìn)程被殺死。
(3)Hadoop-Yarn容器數(shù)量計(jì)數(shù)問(wèn)題
一般一個(gè)任務(wù)投遞時(shí)會(huì)啟動(dòng)多個(gè)容器并行計(jì)算,而Hadoop-Yarn無(wú)法保證每個(gè)容器能順利跑上,同時(shí)由于反饋機(jī)制的缺失,任務(wù)投遞者只有在項(xiàng)目運(yùn)行結(jié)束后,才知道某些樣本并沒(méi)有得到處理,從而浪費(fèi)了很多時(shí)間來(lái)進(jìn)行“掃尾”。NovelBrain V4.0中,系統(tǒng)可自行定義計(jì)數(shù)器來(lái)對(duì)成功運(yùn)行的容器進(jìn)行計(jì)數(shù),實(shí)時(shí)顯示成功運(yùn)行的樣本個(gè)數(shù),保證不會(huì)漏掉分析樣本。
(4)任務(wù)監(jiān)控修正
實(shí)時(shí)監(jiān)控分析任務(wù)的cpu/內(nèi)存使用是一個(gè)非常重要的內(nèi)容。分析任務(wù)的時(shí)長(zhǎng)從數(shù)分鐘到數(shù)天不等,因此監(jiān)控的時(shí)間間隔則很有考究,頻率過(guò)低則無(wú)法有效監(jiān)控到短時(shí)間任務(wù)的信息,頻率過(guò)高則長(zhǎng)時(shí)間任務(wù)會(huì)獲取太多無(wú)意義的信息,白白浪費(fèi)數(shù)據(jù)庫(kù)空間。NovelBrain V4.0采用了冪次降低策略,隨著時(shí)間增加,降低采樣頻率。同時(shí)還配合拐點(diǎn)采樣策略,即如果監(jiān)控到cpu/內(nèi)存的異常變化,則會(huì)將該時(shí)間點(diǎn)的信息存入數(shù)據(jù)庫(kù)。在保證數(shù)據(jù)量合適的同時(shí),也不會(huì)漏掉異常點(diǎn)。
以上列舉了部分在長(zhǎng)時(shí)間的高負(fù)載生產(chǎn)環(huán)境中出現(xiàn)的問(wèn)題,以及NovelBrain V4.0的修正策略。正是這些持續(xù)不斷的修正,才是NovelBrain可以真正應(yīng)用于生產(chǎn),可以穩(wěn)定運(yùn)行的關(guān)鍵保證。
3、全組學(xué)研究分布式加速
NovelBrain是一個(gè)天然的分布式系統(tǒng),在NovelBrain上投遞的task/pipeline,總是會(huì)自動(dòng)分配到多臺(tái)低負(fù)載的機(jī)器上進(jìn)行并行計(jì)算,大幅度縮短數(shù)據(jù)分析的時(shí)間。同時(shí)系統(tǒng)還可以設(shè)定某個(gè)工具的總并發(fā)數(shù),保證多個(gè)大型項(xiàng)目同時(shí)在集群上分析時(shí),不會(huì)互相搶資源。如一個(gè)100臺(tái)服務(wù)器的集群,兩個(gè)用戶均投遞了300個(gè)樣本的基因組分析,那么每個(gè)用戶可以將并發(fā)數(shù)限制為40,這樣雙方不會(huì)互相搶占資源,系統(tǒng)甚至還可以預(yù)留足夠資源用于其他用戶的分析。
之前的V3.0版本NovelBrain針對(duì)性地對(duì)人類(lèi)重測(cè)序進(jìn)行了優(yōu)化和加速,4小時(shí)即可完成單樣本的分析,打破了人重分析的瓶頸。V4.0更是將該該技術(shù)應(yīng)用于所有組學(xué)研究,實(shí)現(xiàn)全組學(xué)的測(cè)序分析加速,有效提升數(shù)據(jù)分析效率。
此外,對(duì)于并行計(jì)算的任務(wù),NovelBrain也有完善的監(jiān)控系統(tǒng)對(duì)每一個(gè)容器的cpu內(nèi)存進(jìn)行監(jiān)控,同時(shí)將運(yùn)行的命令和日志自動(dòng)存檔,方便未來(lái)給第三方機(jī)構(gòu)重現(xiàn)結(jié)果。
4、數(shù)據(jù)壓縮存儲(chǔ)
隨著二代測(cè)序數(shù)據(jù)量的上升,數(shù)據(jù)壓縮刻不容緩。以公有云為例,傳統(tǒng)壓縮和計(jì)算的費(fèi)用比約為7:1-8:1,也就是說(shuō)每1萬(wàn)的計(jì)算費(fèi)用需要7-8萬(wàn)的數(shù)據(jù)存儲(chǔ)費(fèi)用。目前對(duì)于數(shù)據(jù)壓縮有很多方法,如對(duì)fastq進(jìn)行壓縮,使用磁帶機(jī)或公有云進(jìn)行冷備等。NovelBrain認(rèn)為數(shù)據(jù)壓縮存儲(chǔ)是一個(gè)系統(tǒng)化工程,需要多個(gè)方案協(xié)同配合才能獲得最佳的存儲(chǔ)效果。
因此NovelBrain V4.0提出了數(shù)據(jù)壓縮存儲(chǔ)的一體化解決方案,包含以下四個(gè)方面:
(1)原始數(shù)據(jù)fastq文件的高效壓縮
數(shù)據(jù)上傳完畢后,NovelBrain V4.0即自動(dòng)使用開(kāi)源軟件對(duì)fastq文件進(jìn)行壓縮,可以獲得比f(wàn)astq.gz小非常多的無(wú)損原始數(shù)據(jù),分析時(shí)自動(dòng)解壓縮并進(jìn)行分析。
(2)數(shù)據(jù)歸檔化存儲(chǔ)
NovelBrain V4.0在數(shù)據(jù)分析完畢之后,即可自動(dòng)對(duì)原始數(shù)據(jù)進(jìn)行歸檔存儲(chǔ),大幅度降低存儲(chǔ)的費(fèi)用。
(3)中間分析結(jié)果批量刪除
二代測(cè)序分析過(guò)程中會(huì)產(chǎn)生大量的中間結(jié)果,如GATK-Best-Practice會(huì)產(chǎn)生Realign,Remove PCR duplicate等多個(gè)bam文件,這些中間結(jié)果非常占存儲(chǔ)空間。NovelBrain V4.0中的所有分析結(jié)果都在數(shù)據(jù)庫(kù)中存檔,因此可以細(xì)粒度的進(jìn)行中間結(jié)果的刪除。
(4)結(jié)果文件可重現(xiàn)
經(jīng)常會(huì)有客戶或reviewer詢問(wèn)或查詢中間結(jié)果,因此只有結(jié)果文件可重現(xiàn),我們才能放心的刪除中間結(jié)果。NovelBrain V4.0對(duì)線上的工具做了一些調(diào)整,包括工具參數(shù)的增減或修改,軟件版本的更新,和運(yùn)行腳本的調(diào)整等,對(duì)分析工具進(jìn)行版本控制,保證分析結(jié)果可重現(xiàn)。
結(jié)合以上多個(gè)步驟,NovelBrain可以大幅度降低數(shù)據(jù)存儲(chǔ)的成本,真正做到數(shù)據(jù)存儲(chǔ)的高效和成本控制。
5、完備數(shù)據(jù)庫(kù)和可擴(kuò)展的物種管理
對(duì)于分析使用到多個(gè)物種的大型實(shí)驗(yàn)室和公司,在做比對(duì)或注釋分析時(shí)總是個(gè)麻煩事情,一方面需要對(duì)不同物種、不同版本的索引進(jìn)行管理,另一方面在分析時(shí)還需要指定冗長(zhǎng)的物種文件夾路徑。
早在2013年,NovelBrain就開(kāi)始使用數(shù)據(jù)庫(kù)來(lái)記錄物種版本、Annotation、GO、Pathway等信息,在數(shù)據(jù)庫(kù)管理方面經(jīng)驗(yàn)豐富;2014年,NovelBrain即開(kāi)發(fā)了完備的物種管理系統(tǒng),并對(duì)其不斷優(yōu)化;2016年開(kāi)發(fā)了新版的物種管理系統(tǒng)。當(dāng)前的NovelBrainV4.0更是對(duì)物種管理系統(tǒng)進(jìn)行了全面升級(jí),包括自定義的索引工具,可以自由上線包括bwa、bowtie在內(nèi)的多種對(duì)染色體建索引的工具,也支持一鍵對(duì)新上傳的物種建索引。同時(shí)V4.0也支持上傳自定義的miRNA文件、GO/Pathway、Blast文件等,方便用戶導(dǎo)入自己的注釋信息。在數(shù)據(jù)分析時(shí),分析工程師僅需要簡(jiǎn)單選擇物種、版本、數(shù)據(jù)庫(kù)這三項(xiàng),系統(tǒng)會(huì)自動(dòng)將數(shù)據(jù)庫(kù)中的索引路徑、注釋信息等對(duì)接到分析工具中,快速簡(jiǎn)單的進(jìn)行數(shù)據(jù)分析。
經(jīng)過(guò)此次升級(jí),NovelBrain®云平臺(tái)V4.0成為業(yè)內(nèi)更懂用戶、更適合科研、更便捷、更高效的生物醫(yī)療云平臺(tái)之一,實(shí)現(xiàn)了NovelBrain的里程碑式飛躍。本次V4.0版本升級(jí),會(huì)第一時(shí)間更新到老用戶的平臺(tái)上,歡迎各位老師進(jìn)行壓力測(cè)試,并向我們提出寶貴的意見(jiàn)和建議。烈冰安全穩(wěn)定可靠的運(yùn)維體系,為NovelBrain的熱愛(ài)者保駕護(hù)航,讓每一個(gè)普通人都可以自己分析自己的數(shù)據(jù),輕松了解自己數(shù)據(jù)的價(jià)值,并賦予數(shù)據(jù)生物學(xué)意義。
烈冰于2010年成立至今,身經(jīng)百戰(zhàn),數(shù)百篇文獻(xiàn)支持。9年間歷經(jīng)海量數(shù)據(jù)檢驗(yàn),已為600+國(guó)內(nèi)外機(jī)構(gòu)服務(wù)5000+項(xiàng)目,業(yè)務(wù)領(lǐng)域覆蓋科研機(jī)構(gòu),大型藥廠,醫(yī)院,檢驗(yàn)機(jī)構(gòu)等。從烈冰助力首篇circRNA研究文章(Sci Rep. 2016 Mar 2;6:22572.)到人類(lèi)血液外泌體長(zhǎng)鏈RNA數(shù)據(jù)庫(kù)exoRBase(www.exoRBase.org),從基于Ion Proton測(cè)序儀的第一篇轉(zhuǎn)錄組文獻(xiàn)(BMC Med Genomics. 2014 Aug 9;7:49)到第一篇高分轉(zhuǎn)錄組文獻(xiàn)(Nature. 2016 Feb 4;530(7588):98-102),NovelBrain云計(jì)算平臺(tái)身經(jīng)百戰(zhàn),不懼考驗(yàn),獻(xiàn)身科研!