来自美国哈佛大学-麻省理工学院布罗德研究所(简称布罗德研究所)、哈佛大学、达纳-法伯癌症研究所/波士顿儿童癌症与血液疾病中心等机构的研究人员通过解决当前人类遗传学面临的一项关键挑战,证实一种工具应当有助解决哪些遗传变异实际上让人们有风险患上心脏病、糖尿病和一系列其他疾病。
这项研究采用一种被称作“大规模并行报告基因检测(massively parallel reporter assay, MPRA)”的实验技术。这种技术让研究人员研究上千个DNA变异以便鉴定出哪些变异影响基因调节—基因如何开启和关闭。相关研究结果发表在2016年6月2日那期两篇Cell文章上,论文标题为“Systematic Functional Dissection of Common Genetic Variation Affecting Red Blood Cell Traits”和“Direct Identification of Hundreds of Expression-Modulating Variants using a Multiplexed Reporter Assay”。
针对导致疾病的遗传变异,遗传学家面临的问题是存在过多的候选变异。在过去十年,全世界的科学家们利用一种被称作全基因组关联研究(genome-wide association study, GWAS)的方法已鉴定出很多人类DNA片段与一系列疾病风险和其他重要的体部特征相关联。结果就是每个DNA区域能够容纳上百个遗传变异,而且辨别出实际上是哪个变异让人们更可能患病是非常困难的。
第一篇论文通信作者、达纳-法伯癌症研究所/波士顿儿童癌症与血液疾病中心儿科血液专家/肿瘤学家Vijay Sankaran说,“利用GWAS,你获得一组信号,这些信号能够告诉你基因组中的哪些区域与一种特定疾病或性状相关联。但是很难知道哪些区域确实存在因果关联,哪些区域只是凑凑热闹。”
当论及非编码DNA—包括大量含有控制基因表达的序列的DNA片段—中的变异时,情形变得特别复杂。据估计,利用GWAS获得的遗传变异中的85%~90%位于非编码DNA中。因此,科学家们一直在寻找一种方法将利用GWAS获得的非编码性变异、人类生物学特征和最终的人类疾病之间关联起来。
第二篇论文通信作者、哈佛大学计算遗传学家和进化生物学家Pardis Sabeti说,“我们想要从理解基因组的序列片段转向理解这些片段发生哪些变化。我们需要非常灵敏的技术,能够鉴定出这些功能性变化,特别是微小的变化。” Sabeti实验室研究遗传变异在人类和微生物进化中发挥的作用。
大规模分析
作为基因组学工具箱的一个重要部分,报告基因检测有助有助科学家们筛选GWAS数据以便找出真正地影响基因表达或功能的变异。研究人员从可能是增强子的序列中获取DNA片段,在质粒中将它与一种报告基因偶联在一起,其中报告基因提供一个信号读出值(如荧光素酶基因),然后将这种质粒导入到细胞中。如果读出值突然出现(比如细胞发光)的话,那么增强子序列驱动报告基因表达。通过检测同一个DNA片段中的不同变异,一种变异图谱能够产生,这就能够提示着某些变异如何影响基因表达。
然而,这些报告基因检测有一个重大的不足之处:它们不能够放大到研究GWAS中可能出现的上千上万个变异所需的规模。
为此,布罗德研究所校友Tarjei Mikkelsen(如今任职于生物技术公司10X Genomics))和布罗德研究所Alexandre Melnikov当在布罗德研究所创始主任和主席Eric Lander实验室中开展工作时,就已开始考虑开发MPRA。根据2012年发表在Nature Biotechnology期刊上的一篇论文(Nature Biotechnology, February 26, 2012, doi:10.1038/nbt.2137 ),他们注意到利用一种短的独特的DNA条形码对每个质粒进行标记提供第二种读出值。通过对每种质粒产生的mRNA进行测序和计数,他们能够轻松地鉴定出对基因表达影响最大的变异并且这种影响的幅度进行定量。
鉴于每种条形码对每种质粒都是独特的,Mikkelsen和Melnikov团队能够同时分析和检测上千种变异。
聚焦血细胞特征
Sankaran实验室利用Mikkelsen和Melnikov开发的MPRA系统详细分析了利用GWAS获得的75个与红细胞特征相关联的基因组位点中的2750多个非编码DNA变异。正如他、Mikkelsen和论文共同第一作者Jacob Ulirsch和Satish Nandakumar在第第一篇论文中报道的那样,MPRA数据发现32个基因组位点确实影响基因表达。利用其他的计算和功能检测进一步研究这些变异中的一部分对红细胞特征的影响,他们发现几个已知的基因可能在血细胞发育中具有之前尚未识别出的作用。
Ulirsch说,“我们从中意料之外地了解到很多这样的变异对一种主要的血液发育调节物—GATA1—的基因表达进行调整。之前已存在一种普遍的分析模式:一个特征接着一个特征,一种变异接着一种变异,进行分析。若按照这种分析模式,我们将永不能够观察到这一点。”
构建MPRA 2.0
尽管Mikkelsen和Melnikov开发的初始方法是非常强大的,但是Sabeti实验室想要看看他们是否能够让它变得更加强健。
第二篇论文第一作者、Sabeti实验室博士后研究员Ryan Tewhey说,“MPRA的初始版本在能够检测的变异数量上存在限制。我们想要了解:能否将这种技术进行扩展?能否每次测试上万个变异?能否让它的灵敏度更高?”
Tewhey、Sabeti和他们的团队将每个DNA条形码的长度增加一倍,并且将DNA条形码的数量提高到每个变异多达350个DNA条形码。他们然后利用他们性能增强的检测方法研究千人基因组计划(1000 Genomes Project)中鉴定出的3.2万多个可能的B细胞调节性序列变异,深入地描述了与强直性脊柱炎(一种自身免疫疾病)风险相关联的一种变异。他们也强调了另外842个候选变异,包括极其有可能与人类性状和疾病相关联的53个变异。
正如他们在论文中所讨论的那样,这些增加的DNA条形码降低了他们数据中的噪音信号,增加了这种检测的总体灵敏度。
Tewhey补充道,“拥有更多的DNA条形码,就能够开始检测更多的微小表达变化,包括可能是由等位基因之间的差异产生的变化。”
另一个角度分析调节
MPRA并不是从GWAS数据中找出存在因果关联的变异的唯一方法,而且Tewhey认为它不可能是研究细胞中所有表达调节机制的灵丹妙药。
他说,“对启动子和增强子而言,我们知道它很适合。但是对与长程连接性或基因组形状相关联的序列而言,我们对此并不那么充满自信。”
Sankaran指出MPRA真地非常适合研究人员找到与其他的遗传、结构或功能数据相匹配的遗传变异。
他说,“当你开始将所有这些独立的部分放在一起时,你就能够真正地认识到哪些才是重要的。”
(责任编辑:sgx)