稻属的系统发育基因组学研究

	稻属的系统发育基因组学研究
其他题名	A phylogenomic study of the genus Oryza
	邹新慧
学位类型	博士
导师	葛颂
	2008
学位授予单位	中国科学院植物研究所
学位专业	植物学
关键词	稻属系统发育基因组学系统发育冲突快速分化基因树物种树进化
摘要	稻属（OrvzaL．）是禾本科(Poaceae)中的重要植物类群，包含20多个野生种和两个栽培种，共有十个基因组类型，即A，B，C，E，F，G，BC，CD，HJ和HK，蕴藏了极为丰富的遗传资源，是水稻遗传改良的重要基因库。考虑到该属现存物种中的多倍体都是由二倍体杂交起源的，因此，弄清二倍体基因组之间的进化关系对于正确理解整个稻属的进化历史至关重要，同时也为稻属及其近缘类群的进化生物学、比较基因组学和功能基因学研究等提供了一个重要的工作基础。迄今，对稻属各基因组之间的系统发育关系还没有一致的结论，特别是对A、B和C基因组三者之间的关系，以及稻属基部类群的归属问题还存在争议。本研究选取来自不同二倍体基因组的6个稻属物种为研究对象，以近缘属Leersia中的L，tisserantti作外类群，通过对基因组水平的多基因序列数据的详尽分析，探讨了稻属二倍体基因组之间的亲缘关系问题，基因树与基因树之间冲突的机理，以及利用基因组水平的多基因序列做系统发育分析的方法，主要研究结果如下。利用已完成的水稻两亚种（O．sativaL．ssp. indica和O．sativaL．ssp.japonica）的全基因组序列，筛选并扩增出遍布核基因组12条染色体的142个单拷贝核基因片段。通过对全部基因位点的合并分析，我们得到了一棵有完全分辨并得到显著统计支持的系统树。分别提取各基因的外显子区、内含子区和第三密码子进行合并建树时发现，除了合并外显子区的MP分析以外，所得系统树的树形均不变，说明这棵树基本上不会因为选取基因组不同区域或碱基位点而改变，尽管不同区域或碱基位点受到不同的选择约束力。以基因为单位进行放回式抽样也强烈支持合并建树的分析结果，表明多基因合并序列的系统发育估计并没有受到少数特殊基因的支配。为了考察基因组内物种取样对建树的影响，我们增加了2个A基因组物种以及C基因组的另外两个物种，随机选取其中的62个基因位点进行扩增和测序（增加的O．sativa的序列来自BGI-RIS数据库）。将全部II个物种62个基因位点的序列合并建树分析，得到基因组之间的进化关系均未改变。我们进一步评估了合并数据的系统误差，结果发现，合并数据的系统发育重建也未受到系统误差的影响。综上所述，本研究通过系统发育基因组学方法所得到的系统树反映了类群真实的进化关系。为了深入探讨以往研究中出现相互矛盾的系统发育关系的原因，我们对142个基因位点分别做了单独的建树分析，并用系统发育网络方法分析了数据中基因之间系统发育信息矛盾的集中位置及其矛盾程度。基于单基因的建树分析及系统误差分析，我们排除了随机误差和系统误差直接造成基因之间信息冲突的可能性。基于溯祖理论( Coalescence theory)的进一步分析表明，稻属进化过程中发生了两次世代间隔较短的连续分化事件，由于祖先居群较大引起基因的谱系分选，进而使得在利用现有物种基因序列来重建这些分化事件时基因树不能正确反映物种树，且呈现出基因组水平的基因树冲突现象。这两次间隔较短的连续分化事件分别对应了稻属中两次物种快速分化过程，整个稻属基因组的多样性几乎都是在这两次物种快速分化过程中形成的。随机抽样分析表明，需要大量的分子序列数据才能正确分辨稻属二倍体基因组的系统发育关系（若取95%的概率，则至少需要120个基因或50kb的随机碱基位点）。本研究用基因组水平的多基因合并数据克服了谱系分选对构建系统树所带来的“噪音”，在存在广泛单基因系统发育信息矛盾的前提下获得了对物种树的正确估计，这充分证明系统发育基因组学方法在解决快速分化类群的进化关系问题中有着巨大潜力和广阔的应用前景。基于本文所采用的142个核基因，我们初步探讨了利用多基因序列数据构建系统树时如何进行模型选择和插入缺失编码等问题，并评估了数据缺失对基因组水平系统发育重建的影响。结果表明，对合并数据而言，混合模型比单一模型能更好的拟合数据的进化模式；找到合并数据中异质性的根源并做出适当的数据分割是成功运用混合模型的关键；某些模型成分在提高模型对数据的适合度上发挥着重要作用，尤其要考虑位点之间以及谱系之间的突变速率异质性。我们认为，在设置模型时，最复杂的不一定是最好的，把握数据中最重要的进化特征远比简单的增加模型的复杂度重要。插入缺失的编码分析表明，编码后显著增加了对A基因组和B基因组聚为一枝的支持，但对稻属基部类群的分辨状况改善不明显。另外，我们通过去除数据缺失比例较大的类群来降低数据缺失对系统发育推断的影响，结果所得的系统发育关系不变，支持率也仅有极微小的变化，说明基因组水平的多基因数据由于具有丰富的系统发育信息，因而对数据缺失具有很好的缓冲能力。
页数	123
语种	中文
文献类型	学位论文
条目标识符	http://ir.ibcas.ac.cn/handle/2S10CLM1/14460
专题	系统与进化植物学国家重点实验室
作者单位	中国科学院植物研究所
第一作者单位	中国科学院植物研究所
推荐引用方式 GB/T 7714	邹新慧. 稻属的系统发育基因组学研究[D]. 中国科学院植物研究所,2008.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
2008063.pdf（2799KB）	学位论文		开放获取	CC BY-NC-SA	浏览请求全文