A-A+

项目总览 DC CNGB

2019年12月04日 医学 暂无评论

整合生物大数据资源,构建肿瘤疾病、人群多态性、动植物物种多样性、微生物等不同专题数据库及分析数据库系统,形成数据共享系统和社区,满足不同领域的研究人员需求,提升数据价值,促进数据开发应用。

谷子数据库是基于深圳华大基因研究院和张家口市农业科学院等单位谷子基因组研究项目数据设计,该数据库创新的将谷子的表型和基因型贯穿起来,通过谷子的表型信息可以查询和检索谷子的基因型信息,通过基因型可以查到对应的表型信息。数据库的另一个特色是基于生物大数据的技术,利用数据库2000多份谷子材料,记录的40种左右的谷子表型信息,利用机器学习方法(包括K近邻,随机森林和支持向量机算法等)针对上述基因型和表型的数据建立模型。模型最终实现从品种的基因型来预测品种表型,助力于智能分子育种。

千种植物项目(1KP)是一个国际多学科联盟项目,对超过1000种植物进行了大规模测序研究。数据库基于千种植物数据构建了在线BLAST平台,提供在线BLAST服务。截止到2017年6月21日,注册用户数达到947,已完成BLAST任务74726个。

万种鸟类基因组项目(B10K)计划在未来五年(2015-2020年)对所有现存鸟类中具有代表性的鸟类基因组进行测序分析。B10K项目将完成整个鸟类生物的基因组水平生命树,解读遗传变异与表型变异之间的联系,揭示广泛种类的遗传进化与生物地理学和生物多样性模式的相关性,评估各种生态因素和人类影响对物种进化的影响,揭示种群进化历史。截止到2017年3月14日,B10K已经处理了来自300多个家族的,1370个属,2400多个物种的2500多份样本。

海洋生物基因组数据库(MLGD) 是一个旨在对海洋生物基因组数据进行收集和分析的在线数据库平台。我们收集了当前已测序和发表的海洋生物基因组,转录组和蛋白质组数据。并将这些数据及物种的基本信息依照海洋生物分类树组织起来。每个物种的基本信息包括:物种简介,参考文献,图片信息,基因组信息和数据。物种的基因组数据可以从数据库上直接下载,也可以链接到NCBI Genome数据库上进行查看。我们在未来的版本中会添加一些在线的分析工具。我们诚挚欢迎任何形式的测序和分析合作,共同了解和探索海洋生物基因组。目前,已收集472547个物种信息,7538份基因组数据,25514份图片信息。

2013年11月,BGI正式启动“千种鱼转录组计划”(Fish T1K)。该项目旨在解密鱼类起源、进化、生殖、发育、性别调控和免疫等活动机制,以更好应对鱼类育种、疾病防控、海洋食品安全和生物多样性保护等带来的诸多挑战。项目计划在未来3到5年内完成约1000种鱼类转录组的测序、组装工作,并构建高质量的鱼类转录组数据信息平台。FishT1K数据库将建立首个专门针对鱼类组学研究的数据存储,应用,共享平台,并将大大深化我们对鱼类的比较生理学、生物地理学认识,促进鱼类资源医用价值的挖掘、经济和生态价值的开发,以及生物多样性保护等问题的解决。

昆虫是后生动物生物群体中物种最丰富的群体之一。 它们在大多数非海洋生态系统中起关键作用,许多昆虫物种具有巨大的经济和医学意义。解开昆虫的演化对于了解陆地和极地环境中的生活如何演变至关重要。 1KITE(千种昆虫转录组)项目旨在研究包含超过1000种昆虫转录组(即整个表达基因)。

万种线K)是由国家基因库发起的全球性科研项目。该项目计划分析覆盖动物所有的科,包含超过万种动物线粒体基因组数据,建立真正全面的线粒体数据库。目前,数据库包括5157个物种,约35Gb的线粒体基因组数据,数据库还整合了Blast和PhyML工具,为该领域的研究者提供数据和分析支持。

万种植物项目旨在对超过10000个代表植物和真核微生物的主要进化枝的基因组进行测序。该项目将在未来五年(2017-2022年)内生成大规模的植物基因组数据,解决有关植物进化的基本问题。项目主要支持单位包括深圳华大基因研究院(BGI-Shenzhen)和国家基因库(CNGB)。BGI主要应用BGISEQ平台对10KP项目样本进行测序和组装,并开发新的工具。

比较基因组数据库旨在汇集地球上不同物种的知识和组学数据集,包括一些国际大项目的优秀数据集如B10K,1KITE等,构建和完善物种进化树(tree of life)和物种多样性平台,进行跨物种多维度进化比较,建立物种发育进化树,揭示物种进化关系,基于物种知识,生物数据,barcode,图片等数据构建的物种识别系统,进行物种鉴定和信息查询。

农业多样性数据库(ADD)旨在整合当今全球范围农业领域不同科研项目产生的数据和物种信息,为相关研究者开发利用物种资源和科学研究提供便利、友好的数据交互平台。ADD的数据构成计划将包括全球植物的基因组和其它类型数据,以及部分经济动物的相关数据。目前,数据库已经整合的数据包括全部已经基因组测序的植物和部分动物的物种介绍,基因组数据,基因结构和功能注释信息。在不久的将来,整合的数据内容将扩展至转录组,SNP乃至相关微生物。正如ADD数据库的名字一样,我们希望它的内容能够变得越来越丰富,功能越来越强大。这需要大家共同添砖加瓦。因此我们非常欢迎来自全球各地的项目合作,共同探究农业领域的未知奥秘。

病原数据库,整合了各种病原微生物的基因数据及相关的注释信息,关注人源样本未知感染病原的鉴定及检测,提供全面的基因测序数据的病原鉴定功能,通过数据分析和可视化手段,一目了然地展示鉴定结果。同时还提供特殊关注的几种病原(HBV/HIV/HCV/HP)的毒力鉴定和相关的耐药信息,为医患及研究者提供快速全面的病原检测服务。

罕见病数据库(GDRD)是一个综合的遗传病和罕见病研究与应用平台,关注人类遗传变异和表型信息的收集、存储、分析、挖掘,致力于促进领域内数据的共享、交流与合作。当前GDRD(一期)整理了BGI发表的以及来自clinVar和OMIM数据库中的数据,共计约7000余篇文献,1万多个致病变异,近300个遗传病家系的信息。GDRD(二期)将聚合来自于国家基因库及合作方的各种遗传病和罕见病研究项目的测序数据和表型数据,2017年底新增6000份样本的全基因组数据,数据产生量将达20-30T,此外,还将提供自动化解读流程,协助临床医生基因检测后的解读工作,避免人为错误,极大的提高解读效率。

免疫数据库(PIRD)主要关注人体相关的免疫数据,收集了多种疾病的BCR和TCR测序数据,与及对应个体的实验信息,表型信息等。该库一期已储存了1923份样本数据,554696060条序列。PIRD二期将整合更多的样本和数据,到2017年底样本增长5000份,数据量增加至10T,可为疾病健康领域研究者和临床医生提供数据比对和可视化分析服务,解决对数据和分析工具等迫切需求。

人类微生物数据库(HMD)是一个关注人体共生微生物研究的数据库,提供该领域相关的样本和微生物数据。人体微生物数据库目前涵盖了来自8个人肠道微生物研究项目的1443例粪便样品的测序数据和表型信息,以及一个迄今为止最完整的人肠道微生物基因集,数据量合计达到83G。二期的HMD整合的样本量将达3000份,数据量将增加250GB。同时,样品也将覆盖唾液、牙菌斑、皮肤、生殖道菌群等更多类型,届时,与之匹配的基因集也将公开查阅。

GeMap是一个综合数据库。目前,它整合了来自18个国家的27个不同人种的基因组数据,并收集了6个权威数据库的数据,包括38,659个基因和数百万个突变信息。GeMap提供数据检索服务。我们可以通过使用rs编号、基因名称、疾病名称和染色体位置等方式在GeMap中进行搜索。未来,GeMap将整合疾病信息,使用户可以用疾病名称检索表型信息,或用基因名称检索相关疾病,此外,GeMap将构建个人数据分析工作站,用户可以上传个人测序数据,获取个人基因组数据分析结果。GeMap不仅为科研工作者、医疗从业者提供海量数据支持,且将为大众提供操作简易的个人基因组分析工具和平台,充分满足大众的需求。

癌症数据集成与整合分析平台(DISSECT)将立足于建立国内最全面的癌症大数据集成系统,在大数据研究的带动下,进行规模化、规范化的数据平台建设。DISSECT数据平台已在中国内地首次建立ICGC Data Portal(目前最大规模的癌症基因组数据库)镜像站点,为国内研究者提供重要的资源渠道;平台已经储备近2万例癌症基因组及临床数据,并将持续更新并上传新产出的癌症多组学数据; DISSECT数据库系统二期整合了华大基因研究院肿瘤研究所产生的1万例中国人肿瘤全基因组学研究数据。该系统最大的价值将在于对集成多组学数据进行单一癌种大样本或跨癌种大样本的深度挖掘分析,支撑中国肿瘤精准医学方向的发展。

人群多态性数据库(DHGV),主要功能是提供中国人群的全基因组突变信息,可以在致病变异/基因分析过程中用于筛选出真正致病的突变基因和位点,是疾病检测应用于临床所必须的数据库。到目前为止,该数据库共收录了来自全世界一万多个人类样本(10,145),变异位点超过一亿七千万(173,464,780)。数据库将继续收集更多人群的遗传变异数据,同时也欢迎使用者上传更多相关变异数据。人群多态性数据库一期可以支持通过不同的筛选条件对不同人群的遗传变异频率进行查询,筛选条件包括不同人群、性别、研究项目等等。人群多态性数据库二期拟将添加突变与疾病的关系信息。因此,DHGV将更高效地帮助科研人员挖掘和使用这些数据。不仅如此,DHGV的免费数据服务还将极大促进全世界人群,尤其是中国人群的,关于起源进化、遗传疾病以及精准医疗等各个方面的研究和应用。

单细胞数据库将创建人类细胞图集,对身体中所有类型甚至亚型的细胞进行编目,构建人类细胞完整清单,定义人类细胞,构建人体细胞框架图。目前,单细胞数据库汇集并展示了单细胞项目组46个样本,30854个细胞,470GB单细胞数据,该数据库免费提供数据查询下载使用共享。

出生缺陷数据库关注具有遗传起源的出生缺陷疾病,收集相关样本的基因型数据和表型数据,致力于促进该领域,数据的共享、交流与合作。研究者可以通过检索获得特定疾病的基本信息和病例的临床信息。

ICGC数据库中国镜像提供肿瘤数据的可视化、查询和下载,涵盖70个肿瘤研究项目、1,290个样本、46429997个体突变信息和57658突变基因。镜像站点定期与ICGC主站的数据进行同步,为国内的肿瘤研究者提供更加快速的服务。

人类不孕不育和流产组织数据库主要包含了与人类生殖相关疾病的基因组测序信息,包括不孕症,反复流产,无精症,多囊卵巢综合症,子宫肌瘤,子宫内膜异位,子宫腺肌症等等。此外,本数据库也包含了流产组织和健康个体的测序数据。人类不孕不育和流产组织数据库对临床工作者和科研工作者提供单位点多态性,小的插入和删除(小于50碱基对),拷贝数变异(包括大的插入和删除),结构变异(包括易位和倒位)。

癌症是儿童(一般年龄0-14岁之间)疾病死亡的最主要原因;白血病和脑肿瘤是最常见的儿童肿瘤,占据所有儿童癌症的47%,其中儿童脑肿瘤占21%,白血病为26%。相比成人癌症以解剖学位置为主要分类方式,儿童癌症主要以形态学为分类依据,在过去的40年,儿童癌症的五年总生存率已经从10%提升到90%,其中儿童脑肿瘤的五年总生存率为74.4%左右,主要发生在中枢神经系统和脊髓。本数据库主要基于北京天坛医院收集的儿童脑肿瘤样本信息,华大基因进行测序研究,集样本表型与多组学测序数据为一体,加深对儿童脑肿瘤的研究进展。

游离DNA(cell-free DNA,cfDNA)是指小部分位于细胞外的DNA,最早于20世纪40年代被科学家发现并报道。外周血中也存在游离DNA, 这种DNA称为外周血循环DNA(Circulating DNA in plasma or serum)。在孕期母体血液中,有一小部分游离DNA来源于胎儿,这一小部分DNA被称为游离胎儿DNA(cell-free fetal DNA,cff-DNA)。对人体血液循环中的游离DNA是生物医学和临床诊断领域近几年的热门议题之一。基于大规模的高通量测序平台,为在基因组层面开展可量化的游离DNA的研究提供了强大工具。目前游离DNA在科研和医学的应用主要有几个方面:无创产前基因检测(NIPT),癌症检测和监测,等。

国家基因库核酸序列归档系统(CNSA)是一个方便快捷在线提交生物研究项目、样本、实验和数据的数据库,它适用于独立测序工作者提交较少量项目数据。CNSA致力于生物测序研究项目、样本、实验数据的存储和共享,包括但不限于各测序平台产生的不同组学的原始数据、中间数据和结果数据。CNSA作为国家基因库数据存储和共享平台,采用国际核酸序列数据库(International Nucleotide Sequence Database Collaboration,INSDC)标准,接受来自全世界的测序研究数据提交并共享到INSDC组织,并给完整的数据集(包括表型、组学、实验分析方法等数据)提供DOI将数据共享给全世界究人员使用,增强数据重现性,提高数据使用率,通过大数据集比较实现新的科学发现。

BLAST,是Basic Local Alignment Search Tool的缩写,在国家基因库序列搜索服务中,也泛指各类序列搜索功能。国家基因库序列搜索服务中,BLAST功能基于NCBI BLAST+ 2.6.0 standalone版本开发,支持大部分NCBI BLAST数据库的序列比对,并逐步整合CNGB的公开数据集,为各领域的组学研究提供高效便捷的序列搜索服务。序列搜索服务将在未来逐步整合提供各种序列搜索算法,以提供多样的序列搜索功能,满足不同的研究需求。

GigaDB是与《GigaScience》杂志相结合的大型数据库,已采用数字对象唯一标识符(DOIs)对杂志数据库中的所有数据进行标识,使数据保存更加永久,实现可追踪、可检索、可链接、可引用,而之前这些功能仅能用于学术文献。所有的支撑数据和重现该实验所需的软件工具,均可从GigaDB上免费获取及使用。GigaDB将进一步通过采用零版权声明的方式来放弃所有数据信息的版权,以支持数据的完全公开访问与便捷获取,实现数据的可引用性,可以使提供和分享这些数据的研究人员为他们所做出的科研成果获得更应有的认可。

Biomigo 基于CGA(CNGB Global Archive)生物数据基础库,提供全数据检索服务,整合了大量生物数据资源,覆盖基因、变异、表达、蛋白和表型等数据。目前的Beta版本整合了:千种植物数据库(OneKP)、万种动物线粒体基因组数据库(MT10K)、千种昆虫转录组进化研究数据库(1KITE)、千种鱼转录组数据库(FishT1K)、万种鸟基因组数据库(B10K)、ICGC数据库中国镜像(ICGC)等各领域和研究方向的项目数据。我们将进一步整合更多的生物数据基础库数据,完善数据仓库架构,提升搜索引擎检索性能,更好地支撑CGA平台服务。

2004年3月1日,国家人类基因组研究所(NHGRI)宣布完成红丛林鸡(RJF)鸡基因组序列的初稿,该序列被认为是家鸡的野生祖先。为此,华大基因率领一支来自中国,美国,英国,瑞典,荷兰和德国的国际科学家小组为三种不同品种创建了序列变异谱图。为了便于将我们的数据应用于禽类遗传学并为功能和进化研究提供基础,我们及时实施了鸡变异数据库(ChickVD)。

华大基因(BGI)作为中国主要的基因组测序中心之一,一直在开展超级杂交水稻遗传项目(SRGP),全力了解水稻的基因组生物学。在水稻基因信息系统(BGI-RIS)中,我们报道了水稻基因组93-11中水稻基因组的组装和注释方面的最新进展,这是水稻品种的一个栽培品种。籼稻和中国主要粮食作物,并以系统和图形的方式对测序的基因组和相关信息进行了分类,为水稻亚种间的深入比较研究奠定了基础。

家蚕基因组数据库(SilkDB)是家蚕的综合基因组资源数据库。 该数据库不仅可以访问基因组数据,还包括基因功能注释,基因产物和染色体作图,还可以获得广泛的生物信息,如微阵列表达数据,EST和相应的参考文献。 SilkDB数据库将有益于对蚕业研究和比较基因组学的研究。

在2008年10月11日,华大基因宣布利用下一代测序技术(Illumina GA)和自主开发的短序列组装方法,完成第一个大熊猫的基因组序列框架图。此大熊猫名为晶晶,是一只来自成都卧龙繁育中新的雌性大熊猫。我们建立了这个数据库来展示整个熊猫基因组序列,以及基因结构和功能,非编码RNA和重复元素等注释信息。还介绍了二倍体基因组中检测到的多态性信息,如SNPs,Indels和结构变异(SV)。

医学研究中最常用的非人灵长类动物属于猕猴属,这对于更好地了解其基因差异很重要。旧世界猴子的猕猴属与人类密切相关,大约2500万年前有最后一个共同祖先。人类与多个不同物种的短尾猿之间的密切关系成为各种不同生物医学分析的动物模型,包括癌症研究,神经疾病,HIV感染,帕金森病,疟疾,药物滥用以及毒理学和疫苗以及药物测试。虽然印度猕猴亚种(Macaca mulatta mulatta)最初是研究模式的选择,但禁止出口这种恒河猴,大大降低了这些动物的可用性,导致其他猕猴物种/亚种的使用增加,特别是中国猕猴(Macaca mulatta lasiota)和食蟹/螃蟹吃猕猴(Macaca fascicularis)。在这里,我们介绍两种新测序的猕猴的基因组信息:中国恒河猴和食蟹猴/螃蟹吃猕猴,以及先前测序的印度恒河猴。连同印度猕猴和食蟹猴/螃蟹猕猴的表达信息,我们想要区分猕猴和猕猴作为模型动物的差异。

蚂蚁基因组计划的长期目标是建立蚂蚁作为模式生物,以深入了解社会行为和长寿背后的表观遗传机制。蚂蚁提供独特的机会在分子水平上解决这些问题,因为基因相同的胚胎可以遵循生殖王后或非生殖工作者的发育轨迹。这两种类型(变体)的成人在生理学,生命周期和行为方面显示出显着的差异,这必须通过表观遗传机制来确定。蚂蚁基因组数据库(Antbase)目前包含我们测序的两只蚂蚁的基因组数据,并将包括更多的蚂蚁物种,并在不久的将来提供基因组。它已经包含多种生物信息学工具,如blast搜索,基因组浏览器,以及每个基因的详细信息。在接下来的几个月里,它的功能将会大大改善。(数据限制访问)

烟草(Nicotiana tabacum L.)一直是模式植物,因为它是一种方便的研究植物系统。烟草是茄科的一员,茄科是一种植物家族,包括番茄,茄子,矮牵牛,马铃薯和胡椒等其他几种经济上重要的物种。一种高质量,注释完整的绒毛状芽孢杆菌基因组序列,结合转录组的高通量分析有望从根本上增强我们识别卷烟烟气中不良化合物形成的遗传因子和烟草重要农艺性状的能力。烟草数据库试图在不久的将来为烟草研究和育种界提供这样的资源。(数据限制访问)

骆驼属于Camelus属的一种偶蹄有蹄类动物,背部带有称为驼背的独特脂肪沉积物。有两种骆驼:单峰骆驼或阿拉伯骆驼有一个驼峰,双峰骆驼有两个驼峰。它们分别是西亚干旱沙漠地区,中亚和东亚的原产地。这两个物种都被驯化成提供牛奶和肉类,并作为动物的负担。(数据限制访问)

第一版羊的基因组组装草图由单一Texel母羊的肝DNA产生,目前scaffolds覆盖2,710 Mb组成。基因组测序由从Illumina技术获得的大约75乘全基因组鸟枪法测序序列组成,并与在NCBI中的360K BAC-end序列组合使用华大基因(BGI)的SOAPdenovo软件组装。

牡蛎基因组计划的长期目标不仅是建立牡蛎作为软体动物研究的模式生物,而且还要改善软体动物的培养,深入了解海洋环境与人类健康之间的相互作用。因此,我们对太平洋牡蛎(Crassostrea gigas)的基因组进行了测序,通常被认为具有高多态性和重复性。这个基因组数据库目前包含我们测序的C. gigas的基因组数据,并将在不久的将来包括更多的组学数据。它已经包含了多种生物信息学工具,如blast搜索,基因组浏览器,以及每个基因的详细信息。(数据限制访问)

2013年10月,我们完成了位于45°44N和126°36E的哈尔滨(中国)生长的白桦(B. platyphylla)树的第一份基因组序列框架图。白桦使用下一代测序技术(Illumina GA)进行测序,并使用自主开发的短序列组装方法进行基因组组装。据估计,白桦的基因组大约包含在28条染色体中的约4.4亿个碱基对。我们创建了这个数据库来展示整个白桦基因组序列,以及注释信息,例如基因结构和功能,非编码RNA和重复元件。(数据限制访问)

辣椒,通常被称为胡椒,是茄科家族中经济上重要的一个属,其中包括番茄和马铃薯。作为最重要的蔬菜作物之一,辣椒基因组将为辣椒的生物学研究和育种提供无价的新资源。为了更好地管理辣椒基因组数据并方便公众学术用户访问基因组数据和相关信息,我们开发了辣椒基因组数据库。

采用Illumina solexa测序技术,将采用全基因组鸟枪法(WGS)策略进行荔枝从头测序。根据物种中重复序列的特征构建200bp,500bp,800bp至2kb,5kb,10kb,20kb的梯度插入文库,并通过配对末端进行测序以跨越许多不同的在装配中重复。测序深度至少达到60X基因组覆盖范围,以确保每个碱基和基因组完整性的精确性。利用BGI自己的组装软件SOAPdenovo生成荔枝全基因组图谱,并进行生物信息学分析以进一步解码荔枝基因组。(数据限制访问)

棉花基因组计划(CGP)是由中国农业科学院棉花研究所与华大基因合作启动实施。CGP主要侧重于棉花测序和功能分析。(受限合作项目)

鲶鱼基因组计划由西南大学生命科学学院重庆市淡水鱼繁殖与发展重点实验室(重庆市水产科学重点实验室) 与华大基因(BGI)一同合作。 该项目主要侧重于鲶鱼基因组测序,功能分析和S. meridionalis与S. asotus之间的比较基因组分析。(受限合作项目)

大枣(Ziziphus jujuba Mill。)是鼠李科(Rhamnaceae)中最具经济重要性的成员,这是一个大都市家庭。它是世界上最古老的栽培果树之一,拥有可追溯到7000年前的驯化证据。它原产于中国,现在是一种主要的干果作物,种植面积达200万公顷,同时也是亚洲传统的草药。它已被引入40多个国家,从五大洲的温带到热带地区,并在世界范围内越来越受欢迎。我们使用综合策略对古老的栽培最广的枣栽培品种冬枣进行了全基因组测序。为了进一步管理枣基因组数据并促进更多学术研究人员访问基因组数据和相关信息,我们开发了枣基因组数据库。(受限合作项目)

金鱼草(Snapdragon)作为一种流行的花卉植物和花卉发育和evo-devo研究的理想模型,金鱼草基因组将为植物开发,适应和进化研究提供宝贵的新资源。为了方便公众学术用户访问基因组数据和相关信息,金鱼草基因组数据库已经开发并定期更新。(数据限制访问)

黄瓜有7对染色体和367 Mb的单倍体基因组,比葫芦科的其他物种小。我们已经测序并组装了国内黄瓜的基因组,C. sativus var. sativus L.组装的N50contig和scaffold大小分别为19.8Kb和1.14Mb。使用这个遗传图谱,我们将72.8%的组装序列锚定到7条染色体上,当前的黄瓜基因组中预测总共26,682个基因。作为第一批已测序的蔬菜作物,黄瓜基因组将为葫芦科的生物学研究和育种提供宝贵的新资源。为了更好地管理黄瓜基因组数据并促进公众学术用户访问基因组数据和相关信息,我们开发了黄瓜基因组数据库。

谷子(2n = 18),是一种一年生的草本植物,既可以作为谷物作物(粮食生产),也可以作为饲料,主要生长在温带,亚热带和热带地区。作为一种健康食品,它可以提供从淀粉,蛋白质到各种维生素和矿物质(如钙,铁和钠)的营养食物来源。它为近三分之一的世界人口提供主要的每日卡路里摄入量,特别是在干旱气候或不适合种植许多其他作物的土壤贫瘠地区。它是一种具有自花授粉,生命周期短,体型小和基因组规模小的作物,所有这些有利特性使其成为一种无价的更具吸引力的功能基因组学系统模型,并成为有益于其他大型草本植物基因组研究的参考基因组。

Pestalotiopsis microspora是一种能够分解和消化聚氨酯的内生真菌。(数据限制访问)

为了进行鸟类的基因组学分析,这里给出的基因组进行测序,从头组装并注释功能元件。这些基因组将有助于构建鸟类的进化历史,这有可能为几个杰出的基础进化问题提供答案。

裸鼹鼠(Heterocephalus glaber),也被称为沙狗或沙漠鼹鼠,是一种原产于东非部分地区的穴居啮齿动物。这种不寻常的哺乳动物具有许多奇妙的生理学特征,使其成为各种领域研究人员独特的动物模型。我们提供了整个裸体大鼠基因组序列,以及基因结构和功能注释。还提供关于三个器官的基因表达水平的信息。我们希望这些数据有助于更好地了解裸鼹鼠的非凡特征的遗传和生物学基础。

泡桐采用全基因WGS测序技术。基于该物种中重复序列的特征构建200bp,500bp,800bp,至2Kb,5Kb,10Kb,20Kb的梯度插入文库,并通过配对末端进行测序以跨越组装中的许多不同重复序列。测序深度达到至少60X基因组覆盖范围,以确保每个碱基和基因组完整性的精确性,最终生成了泡桐的全基因组图谱。(数据限制访问)

标签:

给我留言

网站地图 Copyright © 2019 百科知识  

用户登录