前沿 | 基因突变背后的数学原理
据美国趣味科学网站近日报道,科学家们发现,一个“纯粹的”数学分支中的一个关键函数可以预测基因突变导致功能改变的频率。
一个所谓的“各位数字之和函数”阐明了这些规则。这些规则还支配着蛋白质折叠、计算机编码以及物理领域某些磁态。
该研究的主要作者、哈佛大学医学院和麻省理工学院的理论物理学家、博士和医学博士研究生瓦伊巴夫·莫汉蒂说:“我们正努力进行的工作的一部分是为在自然界中观察到的许多趋势找到一个普遍的解释。”
对于每一个基因型都有一个表现型:一种新的蛋白质,甚至是一个基因调节另一组基因的行为。一个给定的基因型在其表现型改变之前可以产生许多突变,这种中性突变的积累是进化进程的主要方式。
莫汉蒂说:“我们希望了解实际表现型对基因突变的鲁棒性有多强。事实是,我们观察到这种鲁棒性非常强。”换句话说,构成DNA编码的许多碱基对可以先于最终性状发生改变。
由于这种鲁棒性不仅出现在遗传学领域,而且出现在物理学和计算机科学等领域,莫汉蒂和他的同事们怀疑这种鲁棒性的根源或许在于相关可能序列的基础数学原理之中。他们将这些可能的序列想象成一个多维立方体——被称为超立方体,这个无法可视化的立方体上的每个点都是一种可能的基因型。莫汉蒂说,具有相同表现型的基因型最终应该聚集在一起。问题是,这些基因簇会形成什么形态?
答案在数论中找到了。数论是研究正整数性质的数学领域。一种表现型对突变的平均鲁棒性是由“各位数字之和函数”定义的。这就意味着,通过在这个立方体上添加代表每种基因型的数字,就可以得到这种基因型的平均鲁棒性。
莫汉蒂说:“假设有五种基因型与一种特定的表现型有关。”那么,举例而言,DNA的五个碱基对序列,每个都有一个不同的突变,但它们仍然编码相同的蛋白质。
研究人员发现,将用来表示这五个序列的数字相加,就得到这些基因型在它们的表现型发生变化之前可能发生的突变的平均数量。
这导致了第二个有趣的发现:这些数字的总和,绘制在一个图表上,形成了所谓的牛奶冻曲线。
莫汉蒂说,在分形曲线中,“如果你放大这条曲线,它看起来就和缩小了是一样的,你可以无限地放大,曲线还是一样的”。
莫汉蒂说,这些发现揭示了一些关于错误纠正的有趣秘密。举例而言,研究人员研究的自然系统在处理错误时往往与人类在设定数据存储时处理错误的方式不同。在这些技术例子中,所有的错误都被同样对待,而生物系统往往比其他系统更倾向于保护某些序列。
莫汉蒂说,对于基因序列来说并不奇怪。在基因序列中,可能有几个关键序列,然后是对主要基因功能来说比较次要的其他序列。
莫汉蒂说,了解这些中性突变的动态最终可能对预防疾病至关重要。病毒和细菌进化迅速,在这一过程中它们积累了许多中性突变。
举例而言,如果有方法防止这些病原体在大量无用突变之中发生对其“有益”的难得突变,研究人员就可能能够阻止病原体变得更具传染性或对抗生素产生耐药性的能力。(来源:参考消息)