人类基因组(英文名:Human Genome),是指人类遗传物质的总和。
人类基因组主要由核基因组和线粒体基因组两部分构成。核基因组大小约为3.2X109bp(3200Mb),其中基因和基因相关序列约为1200Mb,基因间隔序列约为2000Mb。人类线粒体基因组的结构比较简单,只有16569bp,含有37个基因。人类基因组是由包括22对常染色体和1对性染色体(X和Y染色体)在内的23对染色体组成。人类基因组中大约包含了2万到2.5万个编码蛋白的基因,而这些基因仅占基因组全长的1.5%。人体有32亿个核苷酸碱基对,人类基因组中的基因是由DNA核苷酸碱基对组成的,这些碱基对以A-T和C-G的形式配对,构成了遗传信息的基础。
1990年10月,美国国会批准了人类基因组计划(Human Genome Project,HGP),用15年时间完成人类基因组作图和基因组测序。这是一个由多个国家和众多科学家共同实施的人类历史上最大规模的生命科学计划。2003年4月15日,美、英、德、日、法、中6国科学家共同宣布人类基因组序列图完成。2022年4月,国际科学团队端粒到端粒联盟(T2T)发表了第一个完整的、无间隙的人类基因组序列;2025年1月,冰岛基因解码公司科学家完成人类基因组完整改组图谱。
定义
广义的人类基因组(human genome),是指包含在人类细胞脱氧核糖核酸中的全部遗传信息,它包括核基因组和线粒体基因组。其中,线粒体基因组(mitochondrial genome)是指线粒体内的环状双链DNA所包含的遗传信息,线粒体DNA长16.6kb,含有37个基因。
狭义的人类基因组,即通常所说的人类基因组,是指核基因组。核基因组(nuclear genome)是指细胞核中一套染色体,通常是指一套常染色体(22条)和两种性染色体(X染色体和Y染色体)共24条染色体所含的完整脱氧核糖核酸序列。
结构组成
整体结构
人类基因组(Human Genome)是指人类遗传物质的总和,又分为细胞核基因组和线粒体基因组两个部分。细胞核基因组共包含23对(46条)染色体,每条染色体都是由一条DNA长链在特定的蛋白质(组蛋白)上紧密盘绕而成。在显微镜下,染色体通常包括着丝粒、短臂、长臂、端粒等结构。线粒体基因组很小,存在于细胞质中,仅包含37个基因,其中一部分也与疾病相关。
染色体
人类基因组是由23对染色体(共46个)所构成,每一个染色体皆含有数百个基因,在基因与基因之间,会有一段可能含有调控序列和非编码脱氧核糖核酸的基因间区段。人类拥有24种不同的染色体,其中有22个属于体染色体,另外还有两个能够决定性别的性染色体,分别是X染色体与Y染色体。1号到22号染色体编号顺序,大致符合他们由大到小的尺寸排列。最大的染色体约含有2亿5千万个核苷酸碱基对,最小的则约有3800万个碱基对。这些染色体通常以细丝状存于细胞核内,若将单一细胞内的染色体拉成直线,那麼将大约有6英尺长(1英尺=30.48公分)。
在人类个体的体细胞中,通常含有来自亲代的1到22对体染色体,再加上来自母亲的X染色体,以及来自父亲的X或Y染色体,总共是46个(23对)染色体。科学家将这些染色体分为7组:1号到3号是A组;4号与5号是B组;X染色体以及6号到12号是C组;人造人13号到人造人15号是D组;16号到18号是E组;19号与20号是F组;21号、22号与Y染色体是G组。对于一般人类来说,每个细胞核内只有两套染色体。
基因
随着人类基因组测序的完成,科学家发现人体内估计有20000到25000个蛋白质的编码基因,占整个基因组序列的2%,远远低于原本估计的数目。虽然与某些较为原始的生物相比,人类的基因数量较少,但是在人类细胞中使用了大量的选择性剪接,将转录产物中穿插在内含子中的外显子以选择性的方式进行剪切和保留,形成不同的核糖核酸剪切产物,这使得一个基因能够制造出多种不同的蛋白质。也就是说,基因的编码效率在长期的进化过程中得到了加强,使得编码效率更高。大多数人类基因拥有许多的外显子,但人类的内含子比位在其两端的外显子更长。这些基因参差不齐地分布在染色体中,每一个染色体皆含有一些基因较多的区段与基因较少的区段。除了蛋白质编码基因之外,人类的基因组还包含了用来转录转运RNA(转运RNA)、rRNA(核糖体RNA)与mRNA(信使RNA)的数千个RNA基因。
研究人类基因组的科学家已经发现了四种碱基:6-氨基嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)在个体脱氧核糖核酸中成对排列。在32亿个核苷酸碱基对中,任意两个人的基因组,只有0.1%是不同的。这些不同使人成为不同的个体。研究者也在不断探索哪些片段代表基因。总共约有2万个基因,被一些没有功能的脱氧核糖核酸所分开。
人体内几乎所有的细胞都含有构成人类基因组的大约30亿个脱氧核糖核酸核苷酸碱基对的完整拷贝。通过四个字母的代码,DNA构建了整个人体所需的所有信息。最先被绘制的基因组包括黑猩猩、小鼠、大鼠、河豚、果蝇、蛔虫病、面包酵母和大肠杆菌(Escherichiacoli)。
基因数量
参考资料:
基因的结构
大多数真核生物包括人类的基因,其编码序列在脱氧核糖核酸分子上是不连续的,被非编码序列间隔开,称为断裂基因(split gene)(图1-6);这是真核生物结构基因的组成特点。断裂基因主要由转录区和侧翼序列构成。
转录区
转录区是从转录起始点到转录终止点的区域,包括前导区、编码区和尾部区。
参考资料:
侧翼序列
真核基因转录区的两侧5’端和3'端都有一段不被转录的序列,称为侧翼序列(flankingsequence),主要有启动子和增强子,对基因的转录起调控作用。
参考资料:
碱基配对原则
人类基因组中的基因是由脱氧核糖核酸核苷酸碱基对组成的,这些碱基对以A-T和C-G的形式配对,构成了遗传信息的基础。
调控序列
人类基因组还含有许多不同的调控序列,调控基因表达。这些序列是典型的短序列,出现在靠近基因的位置。由于高通量表达(指利用电脑与机器辅助以进行大量的序列分析)技术与比较基因组学研究的出现,人们开始系统性地了解这些调控序列,以及它们共同构成的基因调控网络。
人们之所以能够辨认出哪些基因序列是调控序列,是因为生物在演化过程中对基因的保留。以大约7000万年前到9000万年前分支的人类与老鼠为例,若以电脑比较两者的基因序列,并且将两者皆保有的非编码序列辨识出来,就可以知道哪些基因序列可能对于基因调控来说相当重要。
重复序列
人类基因组一半以上的序列为重复序列。重复序列分成5大类:
(1)转座子来源的重复序列(transposon-derived repeats),又称散在重复序列(interspersed repeats);
(2)加工过的拟基因(pseudogene),又称失活的细胞基因逆转座拷贝;
(3)简单的序列重复,包括一个或数个碱基的简单重复,如(A)n、(CA)n、(CGG)n等;
(4)10~300kb的大块段性重复(从基因组的一个部位复制到另一个部位);
(5)位于着丝点、端粒和近端着丝点染色体短臂的串联重复序列,以及rRNA基因群。其中,转座子来源的重复序列占基因组序列的45%,其本身又分成4种类型:LINES、SINES、LTR逆转座子和脱氧核糖核酸转座子。以前,重复序列被贬称为“废品序列”(junk sequence);而现在越来越多的证据表明,重复序列可以为生物进化研究提供丰富的信息,而且有些重复序列是有功能的。
变异
单核苷酸多态性(SNP,发音为“snips”)是人群中最常见的遗传变异类型。每个SNP代表DNA组成单元(称为核苷酸)的差异。单核苷酸多态性(SNP)普遍存在于人体的DNA中。平均而言,每1000个核苷酸中就有一个SNP,这意味着一个人的基因组中大约有400万到500万个SNP。这些变异存在于许多个体中;要被归类为SNP,一个变异必须在至少1%的人群中被发现。科学家已在全球人群中发现了超过6亿个SNP。
短串联重复序列(STR)是指基因组中一段短核苷酸序列多次串联重复的区域,这些区域在个体间表现出显著的变异。它们属于可变数目串联重复序列(VNTR)的一种,在遗传多样性以及脱氧核糖核酸指纹图谱等应用中发挥着重要作用。
异染色质是染色质的致密形态,富含H3K9me3修饰,能让内部基因难以被激活,是反式,反式-己二烯二酸调控位点的独特染色质特征,反式调控中互动强度较弱的位点往往富集异染色质,其存在会降低染色质可及性、减弱调控元件间的三维互作频率并抑制基因转录,也是反式作用位点遗传变异协调染色质可及性、组蛋白修饰和三维基因组结构变化的核心机制,可被小鼠13号染色体上的反式QTL区域调控,在不破坏关键发育程序的前提下助力产生个体表型变异。
种系突变是指存在于父母配子(即生殖细胞)中的突变,这种突变会由父母传递给子女,但父母自身并不会表现出该突变相关的表型。
线粒体
这些线粒体基因在线粒体病中具有一定的重要性。而且这些基因也可以用来研究人类的演化。若分析人类线粒体基因组的变异情况,将能够帮助科学家描绘出人类的共同祖先,称为线粒体夏娃(Mitochondrial Eve)。之所以称为夏娃,是因为线粒体位于细胞质中,而人类的精子与卵子结合时,源自母亲(女性)的卵子提供了绝大多数的细胞质,因此人类细胞中的线粒体基因来自母亲。
功能与意义
核心功能
基因诊断
基因诊断在遗传病中的应用血友病A是最常见的由遗传性凝血功能障碍所致的出血性疾病,表现为X连锁隐性遗传。该病的根源是凝血因子Ⅷ(FⅧ)基因的缺陷,主要突变类型为碱基替换或少数碱基的缺失和插入,这些突变产物可能是不完整的、无活性的或不稳定的FⅧ肽链,导致临床症状轻重不一。采用基因诊断方法可以检出携带者和进行早期产前检查,降低该病的发生率。由于FⅧ基因组织结构庞大,分子病理学改变复杂,对该基因的产前诊断可以通过RFLP连锁分析进行。在FⅧ基因内侧及旁侧有多组RFLP位点可供产前诊断。多采用PCR技术与RFLP相结合的方法:首先用PCR技术将包含突变脱氧核糖核酸的片段扩增出来,然后用识别该位点的限制性核酸内切酶来酶解,电泳后通过RFLP连锁分析直接检测多态性位点的状态。
基因诊断在肿瘤中的应用散发疾病患者的易感基因多来源于新生突变,而家系疾病的易感基因多来源于遗传突变。对散发肿瘤,致力于寻找与肿瘤相关的频发突变或新生突变;而对家系肿瘤,则致力于遗传突变。人类恶性肿瘤的演变过程复杂,是多步骤、多基因参与的分子事件,涉及多个癌基因的激活和抑癌基因(或称肿瘤抑制基因)的丢失。应用基因诊断技术发现在大肠癌、结肠癌癌变的过程中存在抑癌基因如FAP基因、DCC基因、P₅₃基因的丢失,P₅₃基因的突变、癌基因K-ras的点突变、C-myc的过量表达等现象。随着人类基因组及千人基因组计划的完成,WES与WGS二代测序技术,极大地推动了肿瘤遗传研究。在白血病、卡波西肉瘤、小叶基底乳癌、肺癌、霍奇金淋巴瘤(Hodgkin)淋巴瘤、恶性黑素瘤、多发性内分泌腺瘤综合征、家族性甲状腺髓样癌、尿路鳞状细胞癌、肾癌等肿瘤研究中,学者们已经取得了显著成就。
DNA分型也是基因诊断的重要内容,特别是在研究检测HLA类型、T细胞受体类型等方面具有重要意义,而分型的结果对研究疾病关联的基因类型和疾病易感基因等方面具有较大的价值。
应用基因诊断技术可以诊断疾病和预测疾病,进行疗效评价和用药指导,也可以进行个体识别和亲子鉴定。基因诊断的目的不仅仅在于“诊断”,还为今后的治疗,特别是遗传物质缺陷性疾病的治疗打开通路。
精准医疗与个体化治疗
“个体化治疗”一词的使用是在人类基因组计划完成后开始的,当时科学家们就意识到针对个体患者基因组进行个性化药物治疗的潜在优势。趋势正在转向使用“精准医疗”一词,特别意味着要根据疾病的潜在分子基础来设计治疗的方法,这种治疗方法可能可以同时应用于多个人。
mTOR抑制药(如依维莫司)已被用于治疗结节性硬化症的症状,如室管膜下巨细胞星形细胞瘤。依维莫司最近也被批准作为这些患者的局灶性癫痫的疗法。一项名为EXIST-3(Examining Everolimus In a Study of Tuberous sclerosis,在结节性硬化症研究中检验依维莫司)的Ⅲ期临床试验最近刚完成,研究发现依维莫司3~7μg/ml血药浓度下癫痫发作减少29.3%,依维莫司9~15μg/ml血药浓度下癫痫发作可降低39.6%。此外,其他与mTOR通路相关的基因异常(如DEPDC5、NPRL2和NPRL3)导致的局灶性皮质发育不良的病例,该治疗也可能被证明是有益的。
表现为Landau–Kleffner综合征的GRIN2A突变患者可受益于NMDA受体拮抗药美金刚治疗。GRIN2A编码NMDA受体的3个亚基之一(GluN1–3)。此外,一名患大田原综合征且GRIN2A基因p.L812M突变的患儿在接受美金刚治疗后,惊厥频率降低,发作间期脑电图改善,而另一名患大田原综合征和p.N615K突变的患者则没有改善。电生理研究表明,前一种突变降低了谷氨酸和甘氨酸的半最大效应浓度(EC₅₀),而后一种突变没有。
婴儿期局灶性发作常可由编码钠激活的钾通道KCNT1基因突变引起,可以尝试奎尼丁(一种钾通道阻滞药)治疗。此疗法也曾在一个KCNT1突变的婴儿肌肉痉挛患者中尝试过,并且被发现是有效的。然而,考虑此前的报道多为开放标签的特征及存在阳性结果的报道偏移的可能性,这种治疗方法的有效性并不普遍均一,也并不确定。奎尼丁还可以延长QT间期,故易诱发心律失常。因此,任何此类治疗的尝试都必须谨慎并与小儿科心脏病专家配合进行。据报道,溴化物有助于控制该综合征的癫痫发作。
依佐加滨(瑞替加滨)是一种有效用于治疗由KCNQ2突变引起的新生儿癫痫性脑病的药物。KCNQ2和KCNQ3编码电压门控钾通道,依佐加滨可使这些通道开放。然而,该药物由于视网膜病变等不良事件已被撤出市场。
GLUT1缺陷综合征可通过生酮饮食而得到治疗。这种饮食着重依赖于脂肪而不是糖类来形成酮体以作为大脑的主要能量来源,这与该综合征中GLUT1葡萄糖转运蛋白无直接相关。
在某些情况下,对患者癫痫综合征致病性突变的了解会使经典抗癫痫发作药的使用也更有针对性。PCDH19突变可能是导致类Dravet综合征,癫痫和智力低下仅限于女性。一项回顾性研究发现,在这些患者中,最有效的药物是氯巴占和溴化物。Dravet综合征中SCN1A突变的存在可能使癫痫控制对GABA能药物和芬氟拉明更加敏感。对SCN1A突变的动物研究发现,GABA能皮质神经元存在异常。这种突变应避免使用拉莫三嗪等钠通道阻滞药,因为它是钠通道的功能丧失性突变。SCN8A中的功能获得性突变引起相反的现象,具有这些突变的患者对苯妥英治疗敏感。SCN2A突变引起的早发性婴儿癫痫性脑病是另一种对钠通道阻滞药(如苯妥英钠)有反应的疾病。如果这种疾病中出现持续状态,利多卡因和乙酰唑胺是有效的。富含L-脯氨酸的跨膜蛋白2(proline-rich transmembrane protein 2,PRRT2)突变引起的小儿癫痫对卡马西平和奥卡西平有反应。由编码1-磷脂酰肌醇4,5-双磷酸磷酸二酯酶β-1的PLCB1突变引起的婴儿期恶性游走性部分性发作,对肌醇有效。最后,在聚合酶γ(POLG)相关的疾病中必须避免使用丙戊酸盐,因为在这种疾病中丙戊酸盐引起肝细胞毒性的风险增加。
药物基因组学基于精准/个体化治疗总称之下。患者cyp2c9P₄₅₀(CYP)的多态性可潜在地用于指导抗癫痫发作药的选择和给药剂量。例如,CYP2C19等位基因缺陷型变体导致苯巴比妥清除率降低和血药浓度升高。其他可能影响抗癫痫发作药浓度水平的等位基因变异包括CYP2D6、CYP2C9和CYP3A4。临床医生必须彻底询问患者的药物治疗史,因为有几种药物可作为这些酶的诱导药或抑制药。药物也可诱导P-糖蛋白泵(P-gp),使抗癫痫发作药更易从细胞内流出。钙通道阻滞药是P-糖蛋白泵抑制药,已有数项研究关注维拉帕米和尼莫地平作为药物治疗难治性癫痫辅助治疗的应用。在一项低剂量维拉帕米的开放标签试验研究中,53%(10/19)的患者癫痫发作频率降低>50%。在另一项研究中,维拉帕米被用作难治性颞叶癫痫的辅助治疗,36.84%的患者癫痫发作频率降低>50%。最后,一项尼莫地平作为辅助添加药物治疗局灶性难治性癫痫的前瞻性随机对照试验中,61.5%的患者癫痫发作频率降低>50%。
一个重要的关联是东南亚人群中发现的HLA-B15:02等位基因与卡马西平引起的严重药物不良反应,包括Steven Johnson综合征/中毒性表皮坏死松解症(SJS/TEN)谱系疾病。实际上,该等位基因现在已被一些权威机构作为生物标记物。在北欧受试者中,更广泛存在的等位基因HLA-A31:01也与卡马西平诱导的超敏反应有关,尽管严重程度不如HLA-B15:02基因异常。中国的研究报道了奥卡西平在HLA-B15:02患者诱发了SJS/TEN,但尚无HLA-A*31:01患者的此类报道。这些例子强调了在选择抗癫痫发作药治疗时使用个体基因组差异作为生物标志物的潜在应用价值。
产前筛查与诊断
中国是世界上人口出生缺陷率最高的国家之一,为了预防出生缺陷,产前筛查工作变得尤其重要。胎儿染色体非整倍体异常是孕妇需要进行产前诊断的主要原因之一,其中以唐氏综合征、18-三体和13-三体最为常见。传统的产前诊断检测染色体异常的方法是通过有创性操作抽取羊水、脐带血、绒毛进行胎儿染色体核型分析,这些方法存在导致胎儿流产、宫内感染等风险,在实际应用中给孕妇带来了一定的伤害和心理负担。
胎儿的基因组DNA可以短片段的形式存在于母体血液循环中,直接从母体外周血血浆提取DNA,利用第二代基因测序技术对其中的胎儿游离DNA(细胞free fetal DNA,cffDNA)进行测序,结合后续的生物信息学分析,可最终确定胎儿染色体是否存在异常。这一方法的应用避免了传统穿刺法对母体和胎儿造成的损伤风险,因此称为无创产前检测。无创产前检测的阴性预测值较高,假阴性率为0,但是存在假阳性问题。无创产前检测可能产生假阳性结果的原因之一,就是母亲基因组中存在拷贝数变异。
2015年国家卫生和计划生育委员会在发布第一批108家高通量基因测序试点单位的同时,发布了《高通量基因测序产前筛查与诊断技术规范》,该规范明确了无创产前检测的适用范围,界定了无创产前检测在整体产前筛查与诊断服务体系中的合理定位,规范了临床服务流程和质量控制,有助于提高国内无创产前检测的服务质量和管理水平。
调控作用
DNA测序是指测定一条DNA链上碱基的准确顺序。放到人类基因组计划中,就意味着要测定30亿个化学结构单元的精确顺序,这些结构单元组成了人类染色体DNA。因为碱基是两两相对的,因此生化学家只需要识别双链DNA分子其中一条链上的碱基。
突变是指一种特定基因DNA的改变,有些突变会导致疾病。然而,人们很难检测到这些突变,因为大多数大型基因都有许多可能发生突变的区域。DNA芯片是正在研发的识别突变的新工具。它就是一个带有人工脱氧核糖核酸的芯片,DNA上携带特定基因。为了查清一个人的基因是否发生了突变,科学家首先要从这个人的血液中提取DNA样本,与对照样本(就是没有发生突变的正常DNA)进行比较。然后将DNA样本加热,使其解开双螺旋结构,将两股DNA链分离成单链分子。接下来,将长链DNA切割成更小的片段,像测序一样用荧光染料标记。这个人的DNA用绿色染料标记,正常的DNA用红色染料标记。将两组DNA都放入芯片,并与芯片中的合成基因DNA结合。如果这个人的基因没有突变,红色和绿色的样本都能与芯片上的序列结合。但是如果基因发生了突变,脱氧核糖核酸在突变所在区域就不能正常结合。最终科学家就可以确认突变的存在。
聚合酶链反应是一种复制DNA小片段的技术。首先,将所需DNA片段样本加热,使DNA变性,并将其分成两条链,这个过程就像制备DNA芯片。接下来,利用Taq聚合酶催化合成两条新的DNA链,这样每条原始的DNA链就会与一条新的DNA链配对。这个过程促使原始DNA开始复制,每个新分子包含新旧两条DNA链。然后,这些链中的每一个条都可以用来创建两条新的脱氧核糖核酸,以此类推。DNA变性和合成循环往复多达50次,使原始DNA片段精确复制超过10亿份。复制的DNA可以用于许多不同的实验室程序,例如可以应用于人类基因组计划的绘图工作。
基因检测是指检测人的DNA,DNA样本通常取自血液样本中的细胞或其他体液或组织。检测基因是为了探寻某种疾病或功能失调的征兆。DNA的变化可能非常明显,比如在显微镜下可以看到染色体缺失或增加的片段。DNA的变化有时候也不明显,比如增加、缺失核苷酸碱基,或核苷酸碱基发生变化。基因也可能被过度表达,这意味着基因复制了太多次,或者它们可能失活或完全缺失。有时,染色体片段会发生交换,导致基因出现在错误的位置。除了检查染色体或基因外,基因检测还包括生化检测,以确定是否存在错误合成的蛋白质。这些蛋白质是基因缺陷的征兆。
与遗传病的关联
脱氧核糖核酸是生命的主要遗传物质。DNA盘绕在组蛋白上形成染色体。随着细胞的分裂,染色体不断地复制、配对和交换,之后均匀地分配到子细胞中。上述过程若出现错误,将导致染色体的数目或结构异常。
22q11.2缺失是一种在显微镜下不易发现的染色体异常,涉及22号染色体上一大段DNA序列的丢失。研究者发现,一些特殊的重复序列是导致22ql1.2缺失和其他几种染色体结构异常的原因。
研究意义
22q11.2缺失已被证实与心血管畸形、泌尿系统异常、唇腭裂、免疫缺陷病、智力障碍、精神分裂症等一系列疾病密切相关。涉及22ql1.2区的其他染色体异常也是导致先天畸形、白血病和多种实体肿瘤的重要原因。上述发现,为我们了解人类基因组的结构与功能、阐明多种疾病的发生机制提供了一扇重要的窗口。
人类基因组计划
研究背景
人类基因组计划(Human Genome Project,HGP),是一项改变世界的科学计划,与“曼哈顿”原子弹计划,“阿波罗”登月计划,并称为人类自然科学史上的“三大计划”,但在对人类自身的影响上,它远远超过了另外两项计划。它是21世纪生命科学与生物产业的基础和先导,将极大地影响整个人类生活,改变我们现有的哲学、伦理、法律等观念。
人类基因组计划(HGP)是一个国际研究项目,其目标是绘制全部人类基因图谱并对人类脱氧核糖核酸进行测序。该研究由美国国家卫生研究院(NIH)和美国国家人类基因组研究所指导。
人类基因组计划使用的DNA序列不是一个人的,而是多个人组合成的DNA;因此,这是一个具有代表性的人类DNA序列。在这个项目中,DNA来自匿名捐赠者。从志愿者身上采集的血样比实际使用的要多,而且分析的血样上没有名字。因此,即使是捐赠者也不知道他们的DNA样本是否真的被使用过。
目的
人类基因组计划的最终目标是确定人类基因组所携带的全部遗传信息,搞清基因组中每个基因的结构和功能及其相互关系,从而揭开人类生老病死的奥秘,增进人类健康、预防和治疗疾病。
进程
1984年,美国能源部(DOE)与国立卫生研究院(NIH)及其他国际组织发起会议,讨论人类基因组作图和测序的可行性和有效性。
1986年3月,美国生物学家雷纳托·杜尔贝科发表了一篇文章,标题为《癌症研究的转折点--人类基因组全序列分析》。他在文中提出了一个重要课题:接下来人类应该怎么进行基因研究。相较于各自为战,杜尔贝科更倾向于大家共同联合,一起去分析、研究全人类的基因组,并测定基因组中核苷酸碱基对的排列顺序。同年,美国能源部首先提出了“人类基因组计划”草案。雷纳托·杜尔贝科的理论还迅速获得了全世界的关注。很多国家都意识到,它将造爱新觉罗·福全人类,于是纷纷积极响应,开始加入这项计划中来。随后,相继有英国、法国、德国、日本以及中国的科学家参与其中。
1987年,美国能源部向国会提交人类基因组倡议(Human Genome Initiative)。1988年,美国国家研究委员会(NRC)建议进行人类基因组作图和测序,同年,美国国会举行了听证会。
1990年10月,美国国会批准了人类基因组计划(Human Genome Project,HGP):用15年时间完成人类基因组作图和基因组测序。这是一个由多个国家和众多科学家共同实施的人类历史上最大规模的生命科学计划,仅美国的预算就高达30亿美元。
参考资料:
2000年6月,多国科学家并肩携手,通过对人类遗传图谱、序列图谱、转录图谱、物理图谱的研究,终于绘制完成了人类基因组“工作框架图”。虽然这只是一张草图,却是人类基因组计划最核心的部分,包含着人类24个脱氧核糖核酸分子90%以上核苷酸的排列顺序。
2001年2月,公布的人类基因组图谱,仅仅是测定了30亿个核苷酸的排列顺序。
2002年,中国科学家完成的水稻基因组的测序,发现水稻有4.6万~5.5万个基因,竟然比人类的基因组还多。
成果
2003年4月15日,美、英、德、日、法、中6国科学家共同宣布人类基因组序列图完成。可以在公共数据库中免费获取,该项目取得了成功,比原计划提前两年多完成。
人类基因组计划2003年开发了新的工具,如图(3-1)完成了人类基因组测序。该程序提供了一种自动方法,可对从人类染色体中提取的脱氧核糖核酸片段中的碱基对序列进行解码。
2004年10月,国际人类基因组测序联合体(NHGRI)在Nature上发表了人类基因组常染色质全序列测定的论文,宣布人类基因组的常染色质部分中99%的序列已经被测定,其精度达到99.99%,并发现人类基因组中大约含有2.0万~2.5万个基因,远远低于之前10万个基因的预期。同年,该计划于公布了首个人类基因组序列草图(International Human Genome Sequencing Consortium,2004),免费共享的基因组数据极大地推动了生物医学研究的发展。
此外,人类基因组计划中还包括了对大肠杆菌、酵母、线虫、果蝇和小鼠等5种模式生物基因组的测序。人类基因组计划产生的海量数据已被存储于GenBank中(NCBI,.nih.gov/),并可被全球的研究者共享。
截至2014年4月,超过18700个物种的基因组完全已知。
相关研究
对人类基因组的研究也为新药开发和治疗方法创新提供了重要的依据。
参考资料:
2022年,国际某科研团队公布了首个完整的人类基因组序列(图4-1)。
参考资料Beyond the double helix: DNA structural diversity and the PDB.sciencedirect.2026-03-06
生命“天书”有了全新章节——首个完整无间隙人类基因组序列出炉.国家自然科学基金委员会.2026-03-06
人类基因组完整改组图谱绘成,深化人们对遗传多样性的理解|总编辑圈点.中国科技网.2026-03-06
What are single nucleotide polymorphisms (SNPs)?.medlineplus.2026-03-06
短串联重复序列.sciencedirect.2026-03-06
Trans-regulation of heterochromatin underlies genetic variation in 3D genome.biorxiv.2026-03-06
Difference Between Genetic and Chromosomal Disorders.ResearchGate.2026-03-06
文献笔记 | 利用AlphaGenome推进调控变异效应预测.科学网-手机版.2026-03-06
百亿级人类基因组基础模型发布.人民网.2026-03-06
中国“女娲”让基因组“暗物质”现原形.科学网.2026-03-06