相关阅读
初稿文案(有些难理解,要简化)+个人私货
(相关资料图)
“分子生物学证据证明了......”这句话对于广大爱好者来说绝不陌生,似乎无论什么证据只要在“分子生物学”面前都要让步。
但客观而言,分子生物学证据,即分子系统学证据,包含了众多方法。在对分子系统学的原理、应用有所了解之前,不应对含糊其词的“分子生物学证据”深信不疑,而是要仔细研究其方法、数据,进行理性思考。
1962年,Zuckerkandl与Pauling在《分子疾病、演化与遗传异致性》一文中大胆地推测道:由于近缘物种之间血红蛋白氨基酸序列差异很小,而远缘物种间差异大,因而突变随时间增加而增加,且突变速率基本恒定,由此可依据蛋白序列间差异数目推断出物种分化的时间。
1963年,Margoliash对酵母、鱼类、鸟类和有胎盘类的血红蛋白序列差异进行了对比,发现了一个有趣的现象,即两个分化时间很短的近缘物种和一个分化很早的远缘类群氨基酸差异数目基本相同。这一点在许多蛋白质序列和基因组上同样成立,该现象被部分科学家称为“遗传等距离现象”(genetic equidistance),但值得注意的是,仅靠氨基酸差异百分比来表示遗传距离并不合理,这将在后文中有所提及。
1965年,Zuckerkandl和Pauling创造了一个叫“分子钟”(molecular clock)的词,来代指他们此前描述的那种理论,有学者认为分子钟的提出是由1963年遗传等距离现象催生的,笔者并不同意,因为分子钟思想的萌芽早于遗传等距离现象的发现,同时1963年Margoliash的论文也引用了Zuckerkandl等人的研究成果。同时两者所阐述的也存在差别,遗传等距离现象强调有两个近缘物种和一个远缘物种的对比,而Zuckerkandl等于1962年的论文是强调氨基酸差异在关系越远的物种间越大。
最早的分子钟假说认为,突变的速率是恒定的,由此可以根据序列上积累的突变数量来推测分化时间。Kimura在1968年提出了中性理论(neutral theory),认为基因组中许多位点都是中性位点,这些位点的变异不影响生物的适合度,从而表现出较为恒定的变异速率,从而为分子钟假说提供了支持。但这样的进化过程显然是与自然选择相悖的,并在上世纪引发了一场中性论者和选择论者之间的“战争”。
1973年,Ohta提出了近中性理论(near neutral theory),认为在中性位点和受选择的位点之间,还存在一种受微弱选择的位点,它们受到的选择如此微弱以至于接近中性。她写到:“Kimura的中性理论如此的简单而优雅,但我对此仍不满足,因为我认为自然选择不应如此简单。”
Kimura也是群体遗传学的开创者之一,在后者的帮助下,自然选择和中性理论之间的冲突逐渐被调和。现在普遍认为,中性位点符合一种叫“遗传漂变”的进化样式,即受随机因素影响(看运气)。进化就是自然选择和遗传漂变共同作用的结果。因而一个种群的有效群体大小就变得格外重要,有效群体小,受遗传漂变影响更大;若有效群体大,受自然选择的影响更大。
随着基因组学研究的深入,早期分子钟假说的问题愈发明显。首先,越来越多的证据表明突变速率并不恒定,物种之间、基因组不同位点间突变速率都不一样;其次,系统发育分析要对特征的状态进行分析,但DNA和蛋白质的特征状态都太少,尤其是DNA,一个位点只有A、T、C、G四个特征状态,这将导致一个位点若发生了多次突变,即多击(multiple hits),一个位点上可能是A发生了多次突变又变成了A,但被错误识别为没有发生突变;再者,多击的位点已经达到了饱和,如何理解这个“饱和”一词?就是因为突变太过频繁,无法再观测到突变的增加,就可以认为该位点达到了饱和。
诸如此类的问题还有很多,此处不一一列举。总而言之,对分子钟假说进行发展以及校正,是现代分子系统学研究的重点。
分子系统发育分析的主要对象是直系同源基因,即一个祖先基因因物种分化而产生的两个新基因,其他的序列都会扰乱系统发育分析,无法正确反映正确的演化关系。识别基因的同源性需要将序列进行比对,错误的识别都会使得最终结论出现错误。
在进行系统发育分析之前,需要评估这些序列能否用于分析。多重突变、饱和的位点显然不能用于分析,因而中性位点也不会被分析,因为其不受自然选择,展现出极高的突变速率。基因组不同位点间、物种间突变速率的差异也必须被考虑到。
讽刺的是,DNA位点相当有限的特征状态(A、T、C、G,4个状态)造成了很大的问题,但在另一方面也让统计学模拟称为了可能。
碱基A、T、C、G之间可以相互转换,你变成我,我又变成它,每种转换都可以有自己的概率。将A、T、C、G抽象为统计学上的状态,就很容易发现一种状态能以一定的概率变为另一种状态,而且成为后者的概率只受到前者影响,这就形成了一个马尔可夫链,且具有遍历性,能收敛到稳态。不过真实情况比单纯的马尔可夫链更加复杂,杨子恒在1989年发现,不同位点的突变可能是非独立的。现在对碱基替换的模拟较为复杂与多样,按Kosiol等人于2006年的论文可分为四大类,此处不做延伸。
对饱和位点的分析,笔者比较喜欢夏旭华等于2003年基于信息论给出的方法,例如在一段序列中,若没有突变发生,所有位点的碱基都相同,该碱基在序列中的频率为1,这是熵最小的情况。在饱和的序列中,位点上碱基的频率分布可通过多项式分布来模拟,并计算出熵和方差。通过将观察到的熵和预期的饱和序列进行对比,就可以评估该序列饱和的情况。
对于物种间、基因组内不同位点间突变速率不一样(即异质性heterogeneity)的问题,一般的处理方法是用gamma分布进行模拟,此处不做延伸。
有一点尤其要注意,全基因组的数据往往比基于线粒体或Y染色体更可靠,在群体遗传的尺度上,种群间的基因交流会扰乱线粒体和Y染色体的分析;在宏演化的尺度上,Y染色体和线粒体可能造成不完全谱系分选(当然基因组基因也会存在不完全谱系分选),也就是构建的树和真实情况差距较大。此外,线粒体基因并非严格的母系遗传,已有论文报道了父系渐渗(父亲的线粒体基因遗传给子代)现象的存在,不过该现象在人类中不常见
综上所述,对基因序列的系统发育评估及其重要,错误的评估将会使得不适合的序列被应用于分析,造成结果的误差。
对于建树方法的选择,假定最小演化路径即最优的简约法存在显著的长枝吸引(long branch attraction),即两个突变速率过快的支系容易被吸在一起,造成分子上的趋同。目前使用较多的方法有基于概率统计的贝叶斯法、最大似然法等。贝叶斯法对参数的先验分布有较高的要求,在大的数据量下,后验分布能收敛到真值。系统发育学家引入了bootstrap对分支的可靠程度进行打分,但值得注意的是,贝叶斯法分析得出的结果无论关系正确与否,bootstrap的值都可能很高,接近100。
一棵演化树的生命在于它的根,根让演化树有了方向,因而对树进行赋根是极其重要的一步。分子钟框架下,赋根可谓简单粗暴——取最长通径之中点为根,因为假定突变速率相同。但应用最广泛的依旧是外类群定根,顾命思义,就是参照一个外类群来确定演化树的根。
有一点要强调的是,分子钟发展出了很多修正的“松弛分子钟”,假定不同的支系都有自己的演化速率。但这并不意味着严格分子钟(所有支系突变速率一致)就不合理,不同的情况下适用的模型并不相同,在分化程度低,或基因差异小于5%的类群中使用严格分子钟一般是合理的。对进化模型的选择,永远是要具体情况具体分析。
从分子钟提出到现在已过六十载,不知你能否在基因组中听到它的滴答作响?
一点私货
黄石等人在一系列的论述中指出遗传等距离现象能推翻分子钟,他对遗传等距现象的定义为:复杂近缘物种与一较简单参比物种的遗传距离大致相同。但笔者认为他在定义上就犯了错误。
黄石将氨基酸、核苷酸的序列差异作为遗传距离,但该情况下遗传距离的定义不应如此,对于宏进化尺度上的距离比较,应该使用Nei等人的方法;而微进化的尺度上应该使用Edward的算法。当然MGD法认为多击不会造成遗传距离的增加,可能是如此定义遗传距离的原因。但若MGD法认为遗传距离不会随多击而增加,那么请问简约法下多重突变将导致支系同质性增加,从而导致长枝吸引是否是MGD的本质?MGD法忽视多击的现象与简约法的枝长代表最小进化改变量很类似,这与贝叶斯和最大似然法的枝长代表每个位点替换的预期值很不一样。因此我高度怀疑MGD法会造成严重的长枝吸引,或者更激进地说,MGD法可能就是一种长枝吸引。
MGD法认为生物演化会存在“复杂性增加而压缩容错上限”,颇有把人类放在演化之顶端的韵味。但对生物复杂性的定义本身便是模糊的,你能用细胞类型以及很多结构存在与否来定义生物的复杂性,那我为什么不能用基因组大小、密度等来定义(雾)。且复杂性的演化本是嵌合的,在不影响“容错上限”(这个定义也很没有头绪)的情况下,一个类群完全可以丢失某一结构而变得更“简单”。Archezoa这个不成立的分类阶元就是一种丢失了线粒体而被误认为是“获得线粒体前的原始真核生物”的真菌,只是在结构上发生了简化而产生了误导。
最后是赋根的问题,MGD法下对现代人线粒体树赋根会将黑猩猩作为最枝端的类群,这一点黄石在之前的论文只有所反驳:“分子钟和中性理论的赋根才参考黑猩猩作为外类群”,但可笑的是,黄石可能对分子钟赋根法有误解,Cann et al., 1987就是使用的分子钟赋根法,即取最长通径的中点作为根,这和外类群赋根法有本质的区别,Cann et al., 1987也没有外类群。所以MGD法建树没有明确的赋根原则,或者说根本是错误的,因为黑猩猩成为了枝端。
参考文献:
[1]E. Zuckerkandl, L. Pauling, Molecular Disease, Evolution, and Genetic Heterogeneity,
Horizons in Biochemistry, Academic Press, New York, 1962.
[2]Emile Zuckerkandl and Linus Pauling, “Evolutionary Divergence and Convergence in
Proteins,” in Vernon Bryson and Henry Vogel, eds., Evolving Genes and Proteins (New York:Academic Press, 1965), pp. 97–166. The molecular evolutionary clock is not a “metronomic”clock; rather, it “ticks” are stochastic events.
[3]E. Margoliash, Primary structure and evolution of cytochrome c, Proc. Natl. Acad. Sci.
50 (1963) 672–679.
[4] Luo D, Huang S. The genetic equidistance phenomenon at the proteomic level. Genomics. 2016;108(1):25-30. doi:10.1016/j.ygeno.2016.03.002
[5] Yuan D, Huang S. Genetic equidistance at nucleotide level. Genomics. 2017;109(3-4):192-195. doi:10.1016/j.ygeno.2017.03.002
[6] Chen YK, Wang Y, Li JL, Wang WT, Feng DY, Mao KS (2021) Principles, error sources and application suggestions of prevailing molecular dating methods. Biodiversity Science, 29, 629–646. doi: 10.17520/biods.2020273.
[7] Xia X, Xie Z, Salemi M, Chen L, Wang Y. An index of substitution saturation and its application. Mol Phylogenet Evol. 2003;26(1):1-7. doi:10.1016/s1055-7903(02)00326-3
[8] Morgan GJ. Emile Zuckerkandl, Linus Pauling, and the molecular evolutionary clock, 1959-1965. J Hist Biol. 1998;31(2):155-178. doi:10.1023/a:1004394418084Dogan I, [9]Dogan N. 2016. Genetic distance measures: Review. Turkiye Klinikleri J Biostat 8 (1): 87-93. DOI: 10.5336/biostatic.2015-49517.
[10]Kapli, Paschalia et al. “Phylogenetic tree building in the genomic age.” Nature reviews. Genetics vol. 21,7 (2020): 428-444. doi:10.1038/s41576-020-0233-0
[11]杨子恒. DNA序列进化过程中核苷酸替代的非独立性研究[J]. 遗传学报, 1990.
[12]Futuyma D. J. 2013. Evolution. 3rd Edition.
[13]Lindell Bromham. 2016. AN INTRODUCTION TO MOLECULAR EVOLUTION AND PHYLOGENETICS. 2nd Edition.
[14]黄原. 分子系统发生学[M]. 科学出版社. 2011
[15]Cann RL, Stoneking M, Wilson AC. Mitochondrial DNA and human evolution[J]. Nature, 1987, 325: 31-36
[17]张野,黄石.古 DNA 的新发现支持现代人东亚起源说 [J].人类学学报,2019, 38: 491-498
[18]Luo S, Valencia CA, Zhang J, et al. Biparental Inheritance of Mitochondrial DNA in Humans. Proc Natl Acad Sci U S A. 2018;115(51):13039-13044. doi:10.1073/pnas.1810946115
[19]Rius R, Cowley MJ, Riley L, Puttick C, Thorburn DR, Christodoulou J. Biparental inheritance of mitochondrial DNA in humans is not a common phenomenon. Genet Med. 2019;21(12):2823-2826. doi:10.1038/s41436-019-0568-0
关键词: CLOCK YORK 分子生物学 科学出版社 EDWARD 概率统计 NATURE 含糊其词 BootStrap Evolution RATHER 生物演化 基因组学 HETEROGENEITY 遗传学报 一一列举 总而言之 另一方面 综上所述 简单粗暴 1989年
相关阅读
2023-01-27
2023-01-27
2023-01-27
2023-01-26
2023-01-26
2023-01-26
2023-01-26
2023-01-25
2023-01-25
2023-01-25
2021-12-02
2021-12-02
2021-12-02
2021-12-02