生物信息学

茶基因组解析

茶是世界上最古老,最受欢迎的含咖啡因的饮料,具有极大的经济,药用和文化价值。栽培茶树山茶的重复序列高达80.9%,基因组大小伟3.02Gb。文章发现,由于几个LTR反转录转座子家族的缓慢,稳定和长期的扩增,导致茶树异常大的基因组。除了最近的全基因重复事件之外,还发现了与黄酮生物合成相关的基因特异性扩增,其增强了儿茶素生产,萜烯酶活化和胁迫耐受性,茶叶风味和适应性的重要特征。相对于可可和咖啡,我们发现茶咖啡因合成途径的独立快速演变。其中通过25个山茶物种比较发现,大多数类黄酮和咖啡因相关基因的表达水平越高有助于提高生产儿茶素和咖啡因,从而提高茶叶加工适性,茶叶品质。这些新颖的研究结果为进一步特通过代谢组和功能基因组修饰来研究铺平了道路,并将有助于开发更多元化的茶味,最终将在全世界满足和吸引更多的茶饮者。

介绍

茶叶是世界160多个国家超过30亿人所喜爱和消费,是世界上最古老的(公元前3000年)和最受欢迎的非酒精含咖啡因饮料。除了有吸引力的香气和宜人的口味之外,由于茶叶中许多特征性的次生代谢产物,如多酚,咖啡因,茶氨酸,维生素,多糖,挥发性油和矿物质,因此山茶都具有许多健康和药用的功效。茶树是商业化种植茶叶的来源,属于茶属。其中还包含了其他几个重要经济价值的物种,比如花较为好看的山茶, 产生高品质的食用籽油的油茶。茶叶作为药用饮料的第一个可信记录是在中国商代期间,可追溯到公元三世纪。茶的全球扩张较为复杂和冗长,它在跨越千年历史和多个文化,并在全球扩张到100多个国家。今天,茶叶在全球范围内超过380万公顷的土地上种植商业化,2014年每年生产茶叶565万吨。

作为世界上最受欢迎的饮料之一,茶具有来自三种主要特征次级代谢物:儿茶素,茶氨酸和咖啡因的良好营养和药物性质。这些植物化学化合物,特别是儿茶素,对人类健康有益,其含量和组分比例大部分决定了茶的风味。山茶属有具有不同代谢特征的~119种物种。为解释和确定茶加工适宜性的类黄酮,茶氨酸和咖啡因生物合成途径的变异和进化提供了独特的强大系统。数以千计的大陆引进和常规的选择性育种工作已经导致了大量的种族和精英品种,适应全球多样化的栖息地,从而确保了全世界不同的茶叶生产力和质量。茶树中丰富的代谢物成分可能对适应地球上不同生态位的重要作用。揭开这些全球适应的基因组依然是一个未解之谜。虽然众所周知,茶叶中三种主要特征成分的差异积累主要决定了茶叶的质量,但目前关于儿茶素,茶氨酸和咖啡因代谢途径的复合转录调控的基因组信息很少。

这里,我们研究了Yunkang 10(2N = 2×= 30条染色体),一个二倍体栽培品种的高品质的基因组装。其广泛生长在中国西南的基础上。通过连同代表性茶树种类的比较转录组学和植物化学分析,我们旨在获得对三种特征次级代谢物生物合成的分子基础的新见解,重点是茶加工的适用性和茶味的形成。

结果

基因组测序,组装和注释

attachments-2017-05-Mu7QLwam590c3cb2bf46

我们对中国云南省的茶树基因组(品种Yunkang 10)进行了测序。利用Illumina下一代测序平台(HiSeq 2000)进行了全基因组鸟枪法测序分析。这产生了~707.88Gb的原始序列数据集,从而产生高达159.43倍的高质量序列覆盖。使用两种正交方法,我们估计Yunkang 10的基因组大小在2.9到3.1 Gb之间。使用Platanus(适用于高杂合和高重复基因组)组装茶树基因组,然后使用SSPACE搭建scaffold。这最终产生了~3.02-Gb基因组装置,其跨越估计的基因组大小的约98%,并且包含37 618个scaffolds(N50 = 449kb)和258 790个contig(N50 = 20.0kb)。为了验证基因组组装质量,我们先从公共数据库中对所有可用的DNA和茶树的表达序列标签,并分别获得了75.56%和88.30%的比对率。其次,我们将所有高质量reads(~339.49 Gb)映射到组装的基因组序列,其显示良好的比对,映射率为93.96%; 第三,我们组装的转录本也显示了与组装的基因组的优异的比对/序列同一性:

attachments-2017-05-TGhejBmJ590c3ccf8847

为了进一步帮助基因组注释,我们测了总共八个文库代表主要组织类型和发育阶段的RNA测序(RNA-seq)数据,其中包括年轻叶,嫩枝,花芽,花,茎,根,种子和幼苗。利用组合从头、同源和转录组一起进行基因预测,并进一步过滤,我们得到了36 951蛋白质编码基因。其中,33 415(〜90.43%)和26 861(〜72.69%)可以由转录本,蛋白质和/或表达序列标签进行功能分类和支持,分别。此外,我们对非编码RNA(ncRNA)基因进行了同源性搜索和注释,产生700个转移RNA(tRNA)基因,2860个核糖体RNA(rRNA)基因,454个小核仁RNA(snoRNA)基因,223个小核RNA(snRNA)基因和233微RNA(miRNA)基因。重复序列的注释显示转座元件占组装基因组的约80.89%。GC含量在基因组中为〜42.31%,编码序列为〜44.55%。我们注释了~867 339简单序列重复,可以作为茶的遗传标记来辅助育种。

茶树基因组的重复性和重复驱动的基因组扩增

attachments-2017-05-xASeuqO2590c3d32c1fe

包括马铃薯(Xu et al,2011),番茄(Sato et al。,2012),咖啡(Denoeud et al。,2014)和胡椒(Qin et al。,2014)的五种测序物种中,茶树不仅具有最大的基因组,而且重复DNA含量最高。长末端重复(LTR)反转录转座子数目最多(〜67.21%),其中大约55.09%被认为属于两种类型的LTR反转录转座子: Ty1/copia and Ty3/gypsy。研究转座因子显示,反转录转座子和DNA转座子几乎同时被扩增,与共识相比,峰值替代率约为16%。Ty1 / copia和Ty3 / gypsy LTR反转录转座子家族的比较分析表明,两类重复在过去5000万年中经历了多次反转录突变,也许是相对于拟南芥和水稻而言,其具有较小的半衰期。Ty3 / gypsy LTR反转录转座子家族占主导地位,对茶树基因组扩增贡献最大(〜47.08%)。与小植物基因组不同,长期和不断的LTR反转录转座子突变可能持续存在,因为缺乏有效的DNA去除机制导致基因组大小增长,如以前针对云杉的研究。TL001是Ty3 / gypsy反转录转座子家族中最大的,占LTR反转录转座子的约66.70%,全部茶树基因组占约36.79%。

基于来自七个组织的RNA-seq数据的综合调查通常表明LTR反转录转座子家族的表达水平与元件的拷贝数呈正相关。Ty3 / gypsy LTR反转录转座子(平均约0.9%)表现出比所有七种组织中的Ty1 / copia LTR反转录转座子(平均约0.48%)高两倍的表达水平。在映射到完整逆转元件的reads中,最丰富的Ty3 / gypsy 的TL001也是七种组织中最高度表达的,占〜30。这些结果表明逆转录表达水平可能表明茶树基因组中的反转录转座子活性。这些结果表明逆转录表达水平可能暗示着茶树基因组中的反转录转座子活性。

基因家族进化与全基因重复

attachments-2017-05-Pjmmgz5J590c3d4ee313

研究在开花植物中快速发展的基因家族有助于鉴定进化过程中代谢物成分的物种适应和生理变化的基因组基因。我们比较了茶树,猕猴桃,马铃薯,番茄,咖啡,拟南芥,可可,杨树,葡萄和莲花基因组,共产生了26 024个包含246 457个基因的直系同源基因家族。这揭示了一组113 439个属于6730个簇的基因,在所有10个植物物种中共享,代表祖传基因家族。我们发现共有714个基因簇,其中含有2170属于茶树特有的基因,可能与茶谱系中的环境适应和植物化学性质有关。通过GO和PFAM结构域对茶树特异性基因的功能富集分析揭示了与主要茶特征性次级代谢物(例如儿茶素)相关的生物合成过程相关的功能类别。后者包括黄酮生物合成过程(GO:0009813,P  <0.001)和次级代谢分解代谢过程(GO:0090487,P  <0.001)。 PFAM分析进一步表明,涉及黄酮生物合成的基因功能富集于2OG-Fe(II)加氧酶超家族(PF03171, P <0.001),其编码与花色素和黄酮醇(黄烷酮3-羟化酶,花青素合酶,和黄酮醇合酶)。萜类化合物构成了大量天然化合物,是树脂,精油和香精的主要成分。值得注意的是,我们发现茶树特异性基因家族也显着丰富了与柚子合酶活性有关的功能(GO:0010333,P  <0.001),可能与茶香气有关,

在开花植物中,基因家族的扩张或收缩是谱系分裂和表型多样化的重要驱动因素。我们描述了基因家族经历了明显的变化,并沿着不同的分支逐渐演化,特别强调了涉及茶树性状和茶味的参考。我们的研究结果表明,13个476个基因家族被推测存在于十个研究植物物种的最近的共同祖先中,包括2048个基因 在茶树谱系中显示出显着的扩展(P <0.001) 。这些基因的功能注释表明,它们主要富含类黄酮代谢过程的功能类别,包括类黄酮代谢过程(GO:0009812, P  <0.001)和类黄酮生物合成过程(GO:0009813,P  <0.001)。值得注意的是,与黄酮类化合物代谢化合物的修饰相关的许多功能,如槲皮素3- O -葡糖基转移酶活性(GO:0080043,P  <0.001),UDP-葡萄糖基转移酶活性(GO:0035251,P  <0.001; PF00201,P  <0.001),UDP糖基转移酶的活性(GO:0008194, P  <0.001),和类黄酮葡糖苷酸化(GO:0052696,P  <0.001)。的葡糖基转移酶的活动是公知的,通过控制的重要的次级代谢产物的含量,并形成以影响茶的风味和质量,例如,没食子酰化儿茶素和黄酮醇3- ö -glycosides,这在很大程度上确定的茶味涩味。

在茶树特异性和扩展的基因家族中,我们发现防御基因是包括植物病害防御反应在内的最高度丰富的功能类别之一,例如NB-ARC结构域(PF00931; P  <0.001)和富含亮氨酸的重复序列(LRR)(PF13516,PF07725,PF12799,PF00560,PF13855; P  <0.001)。这些研究结果表明,强大的自然选择对于提高亚洲,非洲,欧洲,北美,南美洲和大洋洲的不同栖息地的全球适应性增强了茶树抗病性。为了进一步评估这一点,我们深入研究了抗病基因,其中包括茶树中与富含亮氨酸重复序列(NBS-LRR)和模式识别受体(RLK-LRR)基因的核苷酸结合位点,以及四种双子叶植物:猕猴桃、番茄、可可、和拟南芥。结果表明,茶树共有313种NBS-LRR编码基因,大于猕猴桃(104),拟南芥(207),番茄(263)和可可(297)。植物中的NBS-LRR基因主要负责识别特异性病原体效应物; 因此,观察到这种类型的基因的大量扩增意味着该基因经受着选择压力。我们还在茶树基因组中鉴定了总共272个推定的具有LRR结构域(RLK-LRR)的受体样激酶的RLK-LRR基因。这个数字略大于猕猴桃(254),番茄(231),马铃薯(261),可可(238)和拟南芥(224),表明模式触发免疫是另一种古代先天免疫在植物中,在茶树中更保守,可能在病原体防御中起重要作用。

以前对有序植物基因组学的研究表明,多倍体已经是被子植物进化史上的突出特征,特别是全基因组重复(WGD)事件对作物基因和基因组进化有重大影响。我们确定了16 520个旁系同源基因对,涵盖了茶树基因组中47.6%的蛋白质编码基因。在这些重复基因对的基础上,我们计算出Ks的年代分布,峰值在0.36和1.16左右,表明在茶树基因组中发生了两轮WGD事件。根据旁系同源基因对的Ks值分布,我们分别比较了茶树基因组和其他两个基因组序列(猕猴桃和葡萄)。我们的研究结果证实,在茶树,葡萄和猕猴桃共同经历了古代WGD。

茶加工适应性和质量的基因组学基础

attachments-2017-05-ban4iYnC590c3d7038d9

茶树叶通常用于生产具有营养的茶。茶的质量主要由三个主要特征成分决定:多酚(主要是儿茶素),茶氨酸和咖啡因。为了发现茶树叶中特有的次生代谢物的积累,这是定义茶加工适宜性和茶叶质量的关键,我们从部分Thea以及来自代表性非Thea部分的10种进行了比较植物化学分析的山茶属。高效液相色谱(HPLC)分析显示总儿茶素含量显着较高(平均约7.40倍,P  = 7。78E-07)和咖啡因(平均~9.50倍, P  = 2.56E-03),在茶树和其他物种从部分特亚当与从非物种相比特亚  切片。值得注意的是,特征儿茶素成分包括EGCG(平均约8.2倍,P  <5.56E-05),EGC(平均约7.7倍,P  <6.79E-04),C(平均为3.33倍)P  <1.07E-02),EC(平均约2.6倍,P  <1.92E-02),心电图(平均≥19.5倍,P  <2.08E-04)其中间部大幅变化特亚物种,比从非物种显著更高特亚切片。相比之下,我们观察到这些物种之间的茶氨酸含量没有显着差异(平均为1.3倍,P  <2.44E-01).

为了获得关于茶树和其他山茶种中主要次生代谢物植物化学特征的分子机制的新见解,我们基于相同条件下种植的山茶种类的转录组和植物化学数据进行了综合分析。通过对编码酶进行注释,发现其可能参与催化类黄酮,茶氨酸的这些反应,并在我们的组装茶树基因组咖啡因途径的基因的注释的基础上,我们首先从其它23个的各转录获得同源基因山茶物种和四种咖啡因生物合成相关基因( IMPDH,SAMS,AMPDA和TCS)。我们分析显示,来自部分Thea以及非Thea部分的其他亲属的所有这些重要基因都编码参与栽培茶树中儿茶素,茶氨酸和咖啡因生物合成的酶的所有重要基因。这表明三种特征性代谢途径已经存在于山茶的共同祖先,并且在630万年前保持良好的保存。

尽管如此,24个特性的代谢物有关的基因表现出成熟叶相当不同的表达模式在整个24个检查山茶物种。负责儿茶素生物合成的检测到的基因,是咖啡因生物合成而不是茶氨酸生物合成,在来自部分Thea和非Thea部分的山茶种之间差异表达。这些24种特征性代谢物相关基因的序列变异与这些代表性山茶种中三种主要次生代谢途径的植物化学分化有很好的相关性( 3C)。

24种特征性代谢物相关基因在茶树的八个组织中表现出不同的表达模式。我们的研究结果表明,参与黄酮生物合成途径的大多数编码酶的基因在嫩芽中高度表达,表明类黄酮生物合成在枝条分化过程中早期积极发生。参与茶氨代谢途径的基因在所有组织中表达,但在幼苗中更高度表达,与先前的发现一致。

茶咖啡因生物合成的独立演变

attachments-2017-05-jtVPXikQ590c3dc7163e

咖啡因(1,3,7-三甲基黄嘌呤)是植物中最着名的嘌呤生物碱之一(Ashihara 和Crozier,2001)。它由冬青家族(Suzuki和Waller,1988)的一些紫菜植物合成,例如茶,咖啡,可可(Theobroma cacao)和maté(Ilex paraguariensis))。茶树的咖啡因通过一个关键途径由黄烷苷合成,该关键途径具有SAM依赖性N-甲基转移酶(NMT)催化的三个甲基化步骤(图4A)(Kato等,1996加藤和美津浓,2004)。在茶树基因组的帮助下,我们确定了总共13个NMT基因。我们发现,茶树具有NMT基因少于可可(21)和咖啡(23)( 图4 B; 补充表3637)。NMTs在不同茶树发育阶段的基因表达谱显示,大多数NMT基因(〜77%)易于在叶和花两种原始组织中表达咖啡因积累,而嫩芽表现出稍高的基因表达水平与幼叶相比(补充表38 4D)。通过茶,咖啡(Denoeud等,2014)和可可(Argout等,2011)基因组,比较来自咖啡,可可,茶树及其野生亲属的NMT基因的全基因组抽样,我们能够全面调查咖啡因生物合成的进化现象。表明茶树中咖啡因合成途径和咖啡相对于咖啡因的独立演变。值得注意的是,来自茶树及其亲属的所有NMT基因都形成了具有强自发支持的单个基因进化枝,并且与来自可可的五个NMT基因独立。这表明茶树及其相关茶树种类的咖啡因合成途径可能起源于普通的茶树可可祖先,但分歧较晚,独立演化。我们展示了茶树中咖啡因生物合成的独立,最近和快速发展,支持咖啡因生物合成NMT活动的多个起源。

讨论

我们为栽培的茶树提供了高质量的基因组序列。茶树作为功能基因组学的理想系统,有助于了解许多药用植物中大量次生代谢产物的形成。因此,该基因组序列草案为揭示农艺重要性状的遗传基础和茶树的特征生理,药用和营养特性提供了基础。山茶属中第一个基因组的可用性将有助于对茶树生物学的深入基础比较研究,解决关于山茶花基因和基因组进化的大量问题。这对于加强最有生产力的含油作物的育种计划尤其重要。

获得的基因组序列揭示了茶树的一些独特的生物学。例如,与大多数测序植物物种相比,茶树具有非常大的基因组。我们显示,这是由于几个LTR反转录转座子家族的缓慢,稳定和长期的扩增产生的。可能的是,有效的DNA去除机制(即,不相等的同源重组和异常重组)是在茶树基因组不太普遍,如在其它开花植物(先前描述,例如,冷杉,无油樟,相对于使用拟南芥和水稻)。我们观察到LTR反转录转座子的表达水平与元件拷贝数之间呈正相关,与之前报道的玉米和菠萝的反相关相反。相反,DNA甲基化差异可能在抑制逆转录活化中起作用,导致茶树基因组中LTR反转录转座子的增加。在茶树和其他亲属中发现的相对较新的WGD的检测表明基因组重复对山茶属进化的贡献。这样的WGD事件与大量的分段重复有可能促进与主要次生代谢生物合成(例如类黄酮和萜类化合物)的激活相关的基因家族的扩展以及抗病性和非生物胁迫耐受性。丰富的代谢成分,如黄酮和萜类化合物的积累,显然在支持茶树的环境适应方面发挥了重要作用。抗病相关和非生物胁迫耐受相关基因的快速扩张表明,可以归因于潜在适应全球多样化栖息地的茶树中增强的抗病性的强烈选择,提供大量候选胁迫耐受性和抗病性基因座,进一步研究,以产生更环保的茶树品种。因此,我们假设这些基因组特征使茶树能够广泛适应不同的气候,使其全球无处不在。

我们已经确定了可能控制茶质量的谱系特异性基因,特别是编码涉及黄酮,茶氨酸和咖啡因生物合成途径的酶的基因。与调节茶叶风味和质量的黄酮代谢过程和萜烯合成酶活性相关的茶树扩展基因显着丰富了GO条款。我们的比较分析表明,三种主要的特征代谢途径在茶树和其他山茶植物中是非常保守的。茶树中的大量儿茶素和咖啡因以及Thea的其他成员是将这些品种与非Thea部分区别开来的特征。尽管儿茶素,茶氨酸,咖啡因通常被认为是确定茶加工适应性和茶质量的关键特征代谢化合物,茶味也受许多其他已知(例如萜类化合物)和未知的次级代谢化合物的影响。来自非Thea部分的茶树种类中的儿茶素和咖啡因含量极低,可能与其他一些次要代谢产物降解茶叶质量。

在茶树和其他属于部分Thea的物种中检测到的儿茶素和咖啡因的含量高,为茶香味提供了根本基础。我们的研究结果表明,栽培茶树的野生亲缘关系是提高茶质量相关性状的新基因发现的巨大资源,。茶饮国家的茶叶加工业开发了多种具有茶叶风味的茶叶制品。除了茶叶加工技术的进步之外,这些取决于许多含有这种特征次级代谢物的不同组合的茶树品种的发展。我们提出了基于大规模植物化学,转录组学和功能数据的综合数据框架,这将使特征生物合成途径的进一步的代谢组学和功能基因组细化包括次级代谢物,形成更多样化的茶味,最终将在全球满足和吸引更多的茶饮者。茶树基因组装和转录变异数据,将提供有价值的信息来帮助全球保护这些珍贵的野生茶树种。

参考文献

The Tea Tree Genome Provides Insights into Tea Flavor and Independent Evolution of Caffeine Biosynthesis


(0)

热评文章

评论:

1 条评论,访客:1 条,博主:0 条
  1. wwlsaigao
    wwlsaigao发布于: 

    请问,这篇的组装有人能下载下来吗

发表评论