不同来源的数据信息的比较整合是提高数据质量,获得对特定生物更准确认识进而进行设计改造的常用方法。目前已有多种基于web的基因组注释服务(如RAST, JCVI, IMG, IGS等),通过这些服务提交序列信息即可得到基因注释结果,但不同服务得到的结果往往有较大不同,因此对不同来源的基因注释信息进行数据比对整合对得到可靠的注释结果非常重要。但由于很多注释信息并不标准化,这个比较整合的过程常常需要费时的人工检验核对。
近日,澳门赌场天津工业生物技术研究所研究员马红武和英国爱丁堡大学合作提出了一种通过对不同来源的基因组注释数据整合得到更准确可靠的注释结果的半自动化方法。研究组对由四种基因组注释服务(RAST, JCVI, IMG, IGS)得到的注释结果进行了比较分析。首先,通过程序对用各种ID(如EC号,COG ID,Pfam ID等)表示的功能进行比较,然后重点通过借鉴计算机科学领域中自然语言处理的方法解决了对基因功能描述的文本直接进行比较的问题。这使得87%的基因功能注释都可以通过程序自动比较,仅仅13%需要费时的手动比较。在此基础上,研究组又引入了一个多数规则来确定正确的基因功能注释,从而得到整合多种来源数据的更可靠的一致化的注释结果。将该方法应用于6种不同生物的基因组注释的结果充分证明了该方法的有效性。
相关研究成果发表于BMC Bioinformatics 期刊上。
文章链接
对六种生物不同来源的基因组注释信息进行自动化比较的结果