宋雅·普若哈斯卡是德国莱比锡大学的一名生物信息学家。她每天的大部分时间都花在了收集、整理和分析有关基因的信息上。她的工作一刻也离不开基因,因此,她戏称自己被基因“绑架”了。2008年夏天,普若哈斯卡决定要尝试度过一个每天不用再将“基因”时刻挂在嘴边的暑期。但是,令普若哈斯卡失望的是,这样的尝试根本无法实现,因为关于DNA的新一轮大规模研究引发了她和她的同事对基因本来性质的重新思考。
百岁寿辰闹危机
研究人员不再将典型的基因视为对单个蛋白进行编码的DNA片段。因为,对于基因的传统规则来说,存在着太多的例外。研究人员发现,事实上,一些不同的蛋白质也许是由单一的DNA片段产生的。DNA所产生的绝大多数分子甚至也许都不是蛋白质,而是另一种称为RNA的化学物质。人们熟知的DNA双螺旋结构不再为遗传所独享。吸附在DNA上的其他分子能在具有相同基因的两种有机物间产生显著的差异,而且这些分子也能和DNA一起被继承。
换句话说,基因出现了身份危机。
这场危机发生在基因一词诞生100周年的前夕。基因一词是由1909年丹麦遗传学家威尔海姆·约翰森命名的,用来描述父母给下一代传递了什么才使得它们发展出相同的性状。像他那个时代的其他生物学家一样,约翰森并不了解这个无形的因子是什么东西。
在接下来的60年里,科学家们将基因这个词从抽象的概念变为了具体的现实。他们对面包霉菌和细菌,以及果蝇和玉米展开了实验研究。他们发现了如何通过修饰细胞内的分子来改变花、眼睛及其他性状。他们还指出了DNA是一对相互缠绕的链。到上世纪60年代,他们已经对基因作出了令人信服的定义。
他们认为,基因是一个含有制造蛋白质分子指令的特定DNA片段。为了从基因制造蛋白质,细胞不得不读取它,并建立一个单链副本———RNA外转录。接着,这个RNA就会被一簇用于建立蛋白质模板的核糖体分子抓住。
基因也是遗传的基本单位。每次细胞分裂时,它都会复制其基因,然后父母将这些基因中的一些传递给他们的后代。如果你从母亲那里继承了一头红发,或是罹患乳腺癌的潜因,那么你就有可能继承了一个有助于形成这些性状的基因。
基因的这种定义一直运行得相当好。1968年,分子生物学家冈瑟·斯坦特宣称,下一代科学家的工作将是必须找出其中的细节。
越来越多的怪异基因
斯坦特和他同时代的科学家都非常清楚地知道,这其中的某些细节是非常重要的。他们知道,在蛋白质固定到其附近的DNA位时,基因可被关闭或开启。他们还了解到,一些编码RNA分子的基因从来不会变成蛋白质。相反,他们有其他的任务,如帮助建立核糖体内的蛋白质。
但是,这些例外似乎显得并不重要,还不足以引起科学家对基因的定义提出疑问。耶鲁大学的生物信息学家马克·格斯坦说:“生物学的工作方式迥异于数学。如果你在数学找到一个反例,你就必须回过头去重新思考定义。生物学并不如此,当出现一、两个反例时,人们更愿意对其进行处理。”
20世纪80年代和90年代,科学家们发现了越来越多的反例,当一个细胞产生一个RNA转录时,它会把巨大的DNA块切断,只留存一些小残余。(细胞复制的DNA部分称为外显子,被抛在一边的部分称为内含子。)大量非编码的DNA片段存在于这些蛋白质编码区域。人类基因组中的2.1万个蛋白质编码基因只占了整个基因组的1.2%。
2000年,一个国际科学家小组完成了首个基因组———人体细胞中的所有遗传物质的草图。他们确定了许多蛋白质编码基因的位置,但是人类基因组中98.8%%的其他基因仍有待探索。
从那时起,科学家们开始在基因组的丛林中不断跋涉,一点一点地描绘着基因组的精妙细节。其中最大的一个项目就是“DNA元件的百科全书”,简称为Encode。数以百计的科学家开始协同作战,以确定人类基因组中每一个DNA片段的功能。去年夏天,他们发表了1%基因组的成果———大约300万个DNA“字符”。遗传代码是以字符形式表示的,就像电影标题“Gattaca”(千钧一发)中的每一个字母都代表着一种称为碱基的分子:G(鸟嘌呤),A(腺嘌呤),T(胸腺嘧啶),C(胞嘧啶)。Encode小组预计到明年就可以得出其他99%%基因组的初步结果。
Encode的研究结果显示,至少从传统的基因定义标准看,基因组中充斥着各种怪异的基因。例如,一个单个的所谓基因可以产生一个以上的蛋白质。在一个称为选择性剪接的过程中,一个细胞可以选择不同的外显子组合制作出不同的副本。大约在30年前,科学家就首次发现了选择性剪接的例子,但他们无法确定这种情况到底有多普遍。现在一些研究表明,几乎所有的基因都被剪接。Encode小组估计,蛋白质编码区域平均能产生5.7个不同的副本。不同种类的细胞似乎能从同一基因产生不同的副本。
更为怪异的是,细胞常常将外显子“扔进”来自其他基因的副本中。这些外显子可能来自“遥远的地方”,甚至来自不同的染色体。
因此,Encode的负责人之一、冷泉港实验室的托马斯·金格拉斯认为,“再也不能认为基因是在一个物理位置上的单一DNA片段,在我们所认为的基因组组织方式上,已出现了范式转移”。
遗传的第二通道
研究结果表明,基因组还以另一种方式被组织起来,这种方式给人们提出了一个问题,即重要的基因是怎样遗传的。我们的DNA上镶嵌着数以百万计的蛋白质和其他分子,他们决定着哪些基因能产生副本,哪些则不能。新细胞继承了这些分子和DNA,换句话说,遗传可流经第二个通道。
第二通道的最突出的粒子就是一种叫做柳穿鱼的普通花卉。大多数柳穿鱼植物以镜面对称的方式长有白色花瓣,但是,某些柳穿鱼则长有黄色的五角星。柳穿鱼将这两种花的形式传递给它们的后代。然而,它们花朵之间的差异并不归结为它们DNA中的差异。
相反,这种差异应归结为附着于它们DNA的顶端(cap)模式。这些顶端由碳和氢组成,被称为甲基族。星形柳穿鱼在一个与花朵发育相关的基因上具有一种独特的顶端模式。
DNA不只是被甲基族覆盖,还被轴样的蛋白———组蛋白缠绕着,组蛋白能解开DNA的一股,从而使细胞不能从它制作副本。悬挂在DNA上所有这些分子,统称为表观遗传标记,它们对于细胞形成身体内的最终形式是必不可少的。当一个胚胎成熟时,不同细胞内的表观遗传标记被改变,导致它们发育成不同的组织。一旦表观遗传标记的最终模式被确定,它就会死死地粘附于细胞。当细胞分裂时,它们的后代就会带有同样的一套标记。哈佛大学的布拉德利·伯恩斯坦说:“它们能帮助细胞记住哪些基因要保留,哪些基因从来不被打开。”
相较于基因组,科学家们对这种“表观基因组”知之甚少。2008年9月,美国国立卫生研究院启动了一项1.9亿美元的计划,着手绘制不同组织内DNA上的表观遗传标记。康奈尔大学的埃里克·理查兹说:“从现在开始,我们就可以将基因之外的所有这些变化进行图表化。”
这项研究也许能对癌症及其他疾病的起源提供线索。长久以来,人们已经了解到,当DNA发生变异时,细胞很容易发生癌变。最近的一些研究表明,当表观遗传标记被干扰时,细胞也会更容易发生癌变,因为那些至关重要的基因被关闭了,而那些应当被关闭的基因却被打开了。使这两种变化变得尤为危险的是,它们还能通过细胞传递给它的所有后代。
胚胎开始发育时,已经累积了父母双方DNA的表观遗传标记被剥离。当细胞成为胚胎时,它们增添了一套新的表观遗传标记,该标记与父母拥有的标记具有相同的模式。
这个过程事实上非常微妙。如果一个胚胎受到某种类型的压力,它就可能无法确定正确的表观遗传标记。譬如,1944年,荷兰遭遇了残酷的饥荒。荷兰莱顿大学的科学家最近对60名在那段时间里受孕的人进行了研究。2008年10月,研究人员报告说,这些研究对象至今具有的表观遗传标记仍比他们的兄弟姐妹要少。研究人员得出的结论是,在1944年的饥荒中,孕妇无法给她们的孩子提供表观遗传标记的原材料。
至少在某些情况下,这些新的表观遗传标记可流传给后代。科学家们正在讨论这种情况发生的频次。将在今年《生物学季度评论》上发表的一篇论文中,以色列特拉维夫大学的伊娃·雅布隆斯基和盖尔·拉兹列举了101个案例,这些案例表明与表观遗传标记改变相关的性状可以传承三代。