Nat. Commun. | 刘贇团队开发一种基于CRISPR对MHC区域进行靶向单体型组装的新方法
人类主要组织相容性复合体(Major Histocompatibility Complex, MHC)又称为人类白细胞抗原(Human Leukocyte Antigen,HLA),位于6号染色体(6p21.3),长度约4.6 Mb,包含超200个基因,其在免疫应答、应答调控及免疫监视中起到核心作用[1]。MHC区的遗传多样性与自身免疫性疾病(例如类风湿性关节炎、强直性脊柱炎、乳糜泻)等的超过200种疾病的发生密切相关[2]。MHC区的高频体细胞突变及杂合缺失也是造成非小细胞肺癌等多种肿瘤免疫逃逸的重要原因[3]。因此,精确解析MHC区基因组信息对于探究疾病致病位点的精确定位及致病机制具有重要的意义。
单体型是来自同一染色体上可以同时遗传的多个基因位点上等位基因的组合。对于人类二倍体基因组,给定长度的染色体 DNA具有两种单体型,分别从父母双方继承。MHC区是人类基因组中结构最为复杂的区域,具有高度的遗传多态性(截至2022年12月,已知等位基因数目约35220个)[4],同时区域间存在着强连锁不平衡(LD)。传统针对MHC区基于芯片或探针捕获测序的检测方法,一方面无法有效覆盖所有的多态性位点,另一方面也会丢失重要的单体型信息。完整获取MHC区域的两套单体型信息,对于MHC新变异位点的发现、泛基因组构建、进化分析,以及正确理解MHC的基因表达、表观遗传修饰调控和疾病致病性的研究至关重要。近年来,在不依赖家系信息的情况下,通过结合链特异性(strand-specific)测序以及PacBio HiFi等长片段测序的方法,已能实现人类基因组端粒到端粒的单体型高精准度组装[5, 6]。然而,这些整个基因组单体型组装的方法需要大量的起始材料,计算资源,以及高昂的测序费用。因此对基因组的特定区域(如MHC),开发一种不依赖家系信息实现对靶向区域进行高精准度单体型组装的方法有着重要的价值。
2023年1月3日,来自复旦大学基础医学院的刘贇团队在Nature Communications杂志在线发表了题为CRISPR-based targeted haplotype-resolved assembly of a megabase region的研究论文。该研究建立了一种基于CRISPR的靶向单体型组装的新方法,可以实现靶向MHC区域以及疾病相关复杂基因CR1和RHCE区域实现高精度的单体型组装。此外,以组装成功的两个完整的MHC单体型为参考基因组,文章对MHC区域的基因表达及DNA甲基化修饰进行了准确分析,并探究了MHC区域等位基因的特异转录调控。
在这项研究中,研究人员以人类的GM12878细胞株为例,通过将细胞包埋在胶块中,在胶块内对细胞进行蛋白酶K消化以及CRISPR/Cas9切割,通过脉冲场电泳分离特定分子量的DNA片段,结合10x Genomics link-read测序以及PacBio HiFi长片段测序技术对靶向区域进行单体型组装。
图1 基于CRISPR靶向富集MHC区域
研究人员首先将靶向单体型组装的方法应用在MHC区域,qPCR和二代测序分析均显示MHC区域得到了特异性的靶向富集。由于富集的DNA片段大小集中分布在50 kb – 200 kb之间,作者随后利用10x Genomics linked-read平台以及PacBio HiFi 平台进行了富集DNA的长片段测序,进而组装得到了两个MHC单体型,其中单体型1包含6个contigs,单体型2包含4个contigs。通过将基于MHC单体型找到的变异与来自GIAB (v 4.2.1) 基准数据库和Illumina Platinum Genomes基准数据库的变异进行比较,作者评估了靶向组装得到的MHC单体型分型结果的准确性,并且Switch error rate与Hamming error rate均低于0.7%,说明这些变异得到了正确的分型。
接下来,基于靶向组装得到的MHC单体型,作者对GM12878细胞的MHC区转录组以及甲基化进行了准确定量,发现并验证了HLA-DPA1基因存在等位基因的差异表达,并且证实了HLA-DPA1基因启动子区域两个单体型之间差异DNA甲基化,对下游基因具有甲基化依赖的转录调控作用。
此外,研究人员也将这种靶向单体型组装的方法应用到了两个疾病相关复杂基因区域:RHCE和CR1。无论是针对一个区域的靶向切割,还是对两个区域同时靶向切割,RHCE和CR1区域均能得到显著富集,并成功组装获得完整单体型。以上研究提示该靶向富集的单体型组装策略对基因组的不同区域有着很好的普适性。
总体而言,基于CRISPR系统靶向富集,结合10x Genomics linked-read测序以及PacBio HiFi测序进行靶向区域单体型组装的策略可以用于分析研究包括MHC等区域在内的高度复杂的基因组区域。相较于全基因组单体型组装,该方法仅需较少起始材料、较低的测序数据量和实验成本即可完成靶向区域的高精准度单体型组装,因此可被广泛运用于针对大队列的单体型群体遗传研究。同时,基于单体型信息,可以对靶向区域进行多组学的联合分析,用于揭示包括MHC区域在内的等位基因特性表达的表观遗传调控机制,为疾病致病位点的精确定位并解析其致病机制奠定基础。
在本项研究中,复旦大学基础医学院代谢分子医学教育部重点实验室的刘贇研究员与邱文青博士为该文共同通讯作者,博士生李陶陶,杜多,张丹丹,林熠程为论文的共同第一作者。
原文链接:https://www.nature.com/articles/s41467-022-35389-w
[1]KLEIN J, SATO A. The HLA system. First of two parts [J]. N Engl J Med, 2000, 343(10): 702-9.
[2]TROWSDALE J, KNIGHT J C. Major histocompatibility complex genomics and human disease [J]. Annu Rev Genomics Hum Genet, 2013, 14: 301-23.
[3]MCGRANAHAN N, ROSENTHAL R, HILEY C T, et al. Allele-Specific HLA Loss and Immune Escape in Lung Cancer Evolution [J]. Cell, 2017, 171(6): 1259-71 e11.
[4]ROBINSON J, BARKER D J, GEORGIOU X, et al. IPD-IMGT/HLA Database [J]. Nucleic Acids Res, 2020, 48(D1): D948-D55.
[5]GARG S, FUNGTAMMASAN A, CARROLL A, et al. Chromosome-scale, haplotype-resolved assembly of human genomes [J]. Nat Biotechnol, 2021, 39(3): 309-12.
[6]EBERT P, AUDANO P A, ZHU Q, et al. Haplotype-resolved diverse human genomes and integrated analysis of structural variation [J]. Science, 2021, 372(6537).