1.什么是靶基因步行PCR

2.基因文库是怎么回事?

3.为什么构建基因文库

4.人类基因组计划的任务是哪几种图谱 急!!!

5.什么是Genbank,它的主要用途是什么?

6.人类基因组怎样形成的?

bac末端测序_测序bp是什么意思

HGP的主要任务是人类的DNA测序,包括下图所示的四张谱图,此外还有测序技术、人类基因组序列变异、功能基因组技术、比较基因组学、社会、法律、伦理研究、生物信息学和计算生物学、教育培训等目的。 又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是个关键。

第1代标记

经典的遗传标记,例如ABO血型位点标记,HLA位点标记。70年中后期,限制性片段长度多态性(RFLP),位点数目大于105,用限制性内切酶特异性切割DNA链,由于DNA的一个“点”上的变异所造成的能切与不能切两种状况,可产生不同长度的片段(等位片段),可用凝胶电泳显示多态性,从片段多态性的信息与疾病表型间的关系进行连锁分析,找到致病基因。如Huntington症。但每次酶切2-3个片段,信息量有限。

第2代标记

1985年,小卫星中心(minisatellite core)、可变串联重复VNTR(variable number of tandem repeats)可提供不同长度的片段,其重复单位长度为6至12个核苷酸 ,1989年微卫星标记(microsatellite marker)系统被发现和建立,重复单位长度为2~6个核苷酸,又称简短串联重复(STR)。

第3代标记

1996年MIT的Lander ES又提出了SNP(single nucleotide polymorphysm)的遗传标记系统。对每一核苷酸突变率为10-9,双等位型标记,在人类基因组中可达到300万个,平均约每1250个碱基对就会有一个。3~4个相邻的标记构成的单倍型(haplotype)就可有8~16种。 物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法──标记片段的部分酶解法,来说明图谱制作原理。

用部分酶解法测定DNA物理图谱包括二个基本步骤:

⑴完全降解

选择合适的限制性内切酶将待测DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该DNA链的酶切片段的数目和大小。

⑵部分降解

以末端标记使待测DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该DNA链,即通过控制反应条件使DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。下面是测定某组蛋白基因DNA物理图谱的详细说明。

完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段或一特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征型序列(如CpG序列、Alu序列,isochore)等的标记图,人类基因组的细胞遗传学图(即染色体的区、带、亚带,或以染色体长度的百分率定标记),最终在分子水平上与序列图的统一。

基本原理是把庞大的无从下手的DNA先“敲碎”,再拼接。以Mb、kb、bp作为图距,以DNA探针的STS(sequence tags site)序列为路标。1998 年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有STS对应序列的DNA的克隆片段连接成相互重叠的“片段重叠群(contig)”。用“酵母人工染色体(YAC)作为载体的载有人DNA片段的文库已包含了构建总体覆盖率为100%、具有高度代表性的片段重叠群”,近几年来又发展了可靠性更高的BAC、PAC库或cosmid库等。 随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。

大规模测序基本策略 

逐个克隆法

对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。

全基因组鸟枪法

在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)。 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。

原理

所有生物性状和疾病都是由结构或功能蛋白质决定的,而已知的所有蛋白质都是由mRNA编码的,这样可以把mRNA通过反转录酶合成cDNA或称作EST的部分的cDNA片段,也可根据mRNA的信息人工合成cDNA或cDNA片段,然后,再用这种稳定的cDNA或EST作为“探针”进行分子杂交,鉴别出与转录有关的基因。用PolyA互补的寡聚T或克隆载体的相关序列作为引物对mRNA双端尾侧的几百个bp进行测序得到EST(表达序列标签)。2000年6月,EMBL中EST数量已有4,229,786。

转录图谱的意义

在于它能有效地反应在正常或受控条件中表达的全基因的时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。

人类基因组是一个国际合作项目:表征人类基因组,选择的模式生物的DNA测序和作图,发展基因组研究的新技术,完善人类基因组研究涉及的伦理、法律和社会问题,培训能利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进人类健康。

什么是靶基因步行PCR

BAC是细菌人工染色体意思,之所以有BAC文库的出现,是因为基因组序列太长,测序,以及筛选基因等没有法完成,所以将基因组片段随机打断成片段,连到载体上构建成一系列的重组子,这样当你需要特定的序列,只需要筛选出自己要的那个bac重组子就行了。说的有点过于简单,不知道你能明白否?末端测序也是采用的双脱氧终止法的。双脱氧终止法的原理是;碱基之间是通过俩个碱基的5‘磷酸基团和3’羟基连接的,双脱氧终止法就是利用了这个3‘羟基,将3’羟基脱氧变成氢键,那么这样下一个碱基的5‘磷酸基团就没有法连到前一个碱基上了。所以如果在做测序pcr的时候加一部分正常的dNTP(3号位为羟基),加一定量的ddNTP(2,3号位都是氢键),那么在第一个碱基后如果接上去的是dNTP,那么就可以接着连第三个碱基,如果连得是ddNTP,那么就没有法连下个碱基形成链终止,在测序pcr中,数以万计的反应,那么就会出现2个碱基后终止的链,也有可能出现3个,4个,N个碱基后终止的链,这样就形成了一系列从一个碱基到N个碱基的序列(其最后一个碱基都是三号位为氢键的,这个应该理解吧)。那么如果我们在连上去的ddNTP上连上个荧光基团(四种ddNTP连上不同的荧光基团),那么将这一系列长度的链跑胶,会形成一系列的带,通过每条带最后一个碱基的荧光通过机器就能够区分是什么碱基,将这些碱基拼接好后就是你要的序列了。

基因文库是怎么回事?

靶基因步行PCR也就是通常所说“染色体步移”

从第一个重组克隆插入片段的一端分离出一个片段作为探针从文库中筛选第二个重组克隆,该克隆插入片段含有与探针重叠顺序和染色体的其他顺序。从第二个重组克隆的插入片段再分离出末端小片段筛选第三个重组克隆,如此重复,得到一个相邻的片段,等于在染色体上移了一步,故称之为染色体步移(Chromosome Walking)染色体步移技术(genome walking)是一种重要的分子生物学研究技术,使用这种技术可以有效获取与已知序列相邻的未知序列。染色体步移技术主要有以下几方面的应用:

①根据已知的基因或分子标记连续步移,获取人、动物和植物的重要调控基因,可以用于研究结构基因的表达调控。如分离克隆启动子并对其功能进行研究;

②步查获取新物种中基因的非保守区域,从而获得完整的基因序列;

③鉴定T-DNA或转座子的插入位点,鉴定基因枪转基因法等转基因技术所导致的外源基因的插入位点等;

④用于染色体测序工作中的空隙填补,获得完整的基因组序列;

⑤用于人工染色体PAC、YAC和BAC的片段搭接。

对于基因组测序已经完成的少数物种(如人、小鼠、线虫、水稻、拟南芥等)来说,可以轻松地从数据库中找到某物种已知序列的侧翼序列。但是,对于大多数生物而言,在不了解它们的基因组序列以前,想要知道一个已知区域两侧的DNA序列,只能采用染色体步移技术。

以PCR技术为基础的染色体步移的主要问题是,在预先不了解未知区域序列信息的情况下,如何设计两个特异性引物来扩增未知区域。而传统的染色体步移方法,如:反向PCR法、连接接头法等,都有操作复杂、非特异性扩增、连接效率低等弊端。

TaKaRa新产品之Genome Walking Kit试剂盒是一种根据已知基因组DNA序列,高效获取侧翼未知序列的试剂盒。相对于其它传统方法,本试剂盒具有高效、简便、特异性高、灵敏度高、一次性获得的未知序列较长等特点。其主要原理是根据已知DNA序列,分别设计三条同向且退火温度较高的特异性引物(SP Primer),与试剂盒中提供的四种经过独特设计的退火温度较低的兼并引物,即AP1、AP2、AP3、AP4进行热不对称PCR反应。

通常情况下,其中至少有一种兼并引物可以与特异性引物之间利用退火温度的差异进行热不对称PCR反应,通过三次巢式PCR反应即可获取已知序列的侧翼序列。如果一次实验获取的长度不能满足实验要求时,还可以根据第一次步移获取的序列信息,继续进行侧翼序列获取。此外,本试剂盒中还含有Control DNA及Control Primer,可以方便进行Control实验。

为什么构建基因文库

基因文库是指某一生物类型全部基因的集合。这种集合是以重组体形式出现。某生物DNA片段群体与载体分子重组,重组后转化宿主细胞,转化细胞在选择培养基上生长出的单个菌落(或噬菌斑)(或成活细胞)即为一个DNA片段的克隆。全部DNA片段克隆的集合体即为该生物的基因文库。 构建基因文库的意义不只是使生物的遗传信息以稳定的重组体形式贮存起来,更重要的是它是分离克隆目的基因的主要途径。对于复杂的染色体DNA分子来说,单个基因所占比例十分微小,要想从庞大的基因组中将其分离出来,一般需要先进行扩增,所以需要构建基因文库。在很多情况下目的基因的分离都离不开基因文库。此外基因文库也是复杂基因组作图的重要依据。基因文库构建包括以下基本程序: ① DNA提取及片段化,或是cDNA的合成。 ② 载体的选择及制备。 ③ DNA片段或cDNA与载体连接。 ④ 重组体转化宿主细胞。 ⑤ 转化细胞的筛选。当获得了含重组体的宿主细胞时,即完成了基因的克隆。基因的克隆只是分离基因的基础,基因克隆后还要对克隆的基因进行分离,即利用各种手段把目的基因从文库中分离出来。分离出目的基因还必须对其进行必要的检测与分析:如进行序列测定,体外转录及翻译、功能互补实验等。通过这些实验确定出基因的结构及功能。到这时才能算分离到了目的基因。所以,基因的克隆、克隆基因的分离、分离基因的鉴定是利用基因文库技术分离目的基因的主要内容。一、基因文库的类别 1. 基因组文库与cDNA文库 根据基因类型,基因文库可分为基因组文库及cDNA文库。基因组文库是指将某生物的全部基因组DNA切割成一定长度的DNA片段克隆到某种载体上而形成的集合。 cDNA文库是指某生物某一发育时期所转录的mRNA经反转录形成的cDNA片段与某种载体连接而形成的克隆的集合。 基因组文库根据DNA来源又有核基因组文库、叶绿体基因组文库及线粒体基因组文库。 基因组文库与cDNA文库的区别在于cDNA文库是有时效性的。文库构建时的信息供体是某一时空条件下的细胞总mRNA,它是在转录水平上反映该生物在某一特定发育时期,某一特定组织(或器官)在某种环境条件下的基因表达情况,并不能包括该生物有机体的全部基因。在某种意义上讲它可以表现基因组的功能信息。再者,cDNA文库只反映mRNA的分子结构。cDNA中不含有真核基因的间隔序列及调控区,确切说cDNA并不是真正意义上的基因。基因组文库构建时遗传信息供体是基因组DNA,因而无发育时期及组织器官特异性,在一个完全的基因组文库中包含着基因组DNA上的所有编码区及非编码区序列的克隆。生物有机体的每一个基因在文库中都有其克隆,该克隆的基因片段里包括着间隔序列,所以基因组文库可真实地显示基因组的全部结构信息。目前这两类基因文库在基因工程中都得到有效应用。选择哪一种,主要是根据实验目的。在分离RNA病毒基因,研究功能蛋白序列,分离特定发育阶段或特定组织特异表达的基因时应构建cDNA文库。在研究mRNA分子中不存在的序列及基因组作图时必须构建核基因组文库。 2. 克隆文库及表达文库从基因文库的功能上看可分为克隆文库及表达文库。克隆文库由克隆载体构建。载体中具复制子、多克隆位点及选择标记,可通过细菌培养使克隆片断大量增殖。表达文库是用表达载体构建。载体中除上述元件外,还具有控制基因表达的序列(如启动子、SD序列、ATG、终止子等),可在宿主细胞中表达出克隆片段的编码产物。表达载体又有融合蛋白表达载体及天然蛋白表达载体之分。 从克隆文库中分离目的克隆时主要利用核酸探针,可以是根据蛋白质序列合成的寡核苷酸探针,也可以是同种或同属生物的同源序列探针。从表达文库中分离目的克隆时,因克隆片段的表达产物蛋白质具有抗原性及生物活性,所以除核酸探针外,还可以利用免疫学探针及生物功能进行筛选。表达文库适合于那些不知道蛋白质的氨基酸序列、不能用核酸类探针筛选的目的基因的分离。 3.不同载体的基因文库 目前用于构建基因文库的载体主要有质粒、噬菌体、黏粒及人工染色体四大类。每类中又有许多不同的载体。不同的载体适于构建不同的基因文库。(1). 质粒文库 质粒是最早用于基因克隆的载体。现已有各种适用于不同工作的如克隆、表达、测序等专用商品质粒。但在构建基因文库上,由于质粒相对较小并只能容纳比自身更小的片段,因此它不能用于构建核基因组文库,通常只用来构建短序列的克隆文库。例如叶绿体DNA分子较小,可以用质粒构建叶绿体DNA文库。质粒载体可用于生物cDNA文库构建。但只适合于高丰度的mRNA。(2). 噬菌体文库 目前用于基因克隆的噬菌体载体及其衍生载体很多,如单链的M13噬菌体载体、λ噬菌体载体、P1噬菌体载体、噬菌粒(phagemid或phasmid)等。其中使用最多的是入噬菌体。 λ-DNA为双链结构,长49kb。线性分子两端各有一条12个核苷酸的黏性末端称cos位点。分子中有约15kb可去掉的非必要基因区,又称“填充区”, “填充区”两侧的序列含有其增殖所必需的全部基因,称为左、右臂。“填充区”可被外源DNA取代,构成重组体,这是它成为克隆载体的结构基础。由于噬菌体头部包装容量的限制,重组λ-DNA分子大小只能在39—52kb之间。(3). 黏粒文库 黏粒(cosmid)也称柯斯质粒,是人工构建的由λ噬菌体的COS序列、质粒的复制子序列及抗生素抗性基因序列组合而成的一类特殊的质粒载体。COS序列是DNA包装进噬菌体颗粒所必须的。复制子通常是使用ColEl或pMBl的复制起始位点。黏粒具有λ噬菌体的某些性质,在克隆了大小合适的外源DNA片段并且在体外被包装成噬菌体颗粒后,能高效转导对入噬菌体敏感的大肠杆菌宿主细胞。在宿主细胞内按λ噬菌体方式环化,但不能通过溶菌周期,无法形成子代噬菌体颗粒(因分子中不具入噬菌体全部必要基因)。它也具有质粒载体的主要性质,在宿主细胞内可以像其他质粒一样复制,并与松弛型质粒相同,适量的氯霉素可促进扩增。因具抗生素基因,可以通过抗生素抗性筛选重组子。黏粒载体在构建时也加上了设在插入失活基因内的多克隆位点。黏粒载体的分子较小(2.8—24kb),但克隆容量很高,对外源DNA长度的要求是30~45 kb,上限几乎是入噬菌体载体容量(23 kb)的2倍,所以黏粒载体在核基因组文库构建上具有相当的优势,可克隆包括3,和5’调控区在内的完整的植物基因。(4).人工染色体文库 人工染色体载体是利用真核生物染色体或原核生物基因组的功能元件构建的能克隆大于50kbDNA片段的人工载体。其中有的载体既可用于克隆,又能直接转化,是进行基因功能研究的良好载体。近年来陆续发展起来的人工染色体文库有YAC库、BAC库、BIBAC库、PAC库及TAC库。二、核基因组文库构建核基因组文库构建主要使用λ噬菌体置换型载体或黏粒载体。 1. 随机文库克隆数目随机文库指代表基因组各部分DNA的摩尔数相等。对于随机文库: N = ln(1-P) ; ln(1-x/y) N:克隆数目 P:设定的概率值(如:0.99,表示在片段随机分布时,从文库中找到任一序列的概率不低于0.99) x:插入片段平均大小(15~20kb) y:基因组的大小(以kb计) 如果插入片段平均大小为20kb,某基因组大小为4X108bp,P = 0.99时,根据上式N = 1X105。含1XlO5个克隆的基因文库相当覆盖了5倍的基因组,在片段随机分布时,从文库中找到任一序列的概率不低于0.99。随机片段可通过机械切割或限制酶消化产生。机械切割法可获得较均一的随机片段,但片段不能直接用于克隆,需经末端修饰、甲基化,连上接头后再用限制性内切酶消化产生黏性末端。用限制酶消化的方法虽然可直接产生黏性末端,但片段的随机性较差,所以采用后种方法时,文库的克隆数目应大于计算值。三、利用PCR技术构建c DNA文库 cDNA文库构建的起始信息物质是mRNA。因此构建cDNA文库首先要考虑的问题是mRNA的含量及质量。生物细胞中mRNA含量较低。通常cDNA文库构建需要ug级的mRNA。对于低丰度的mRNA(<0.5%),要通过富集或增大克隆数目来保证构建的文库中能够含有它们的克隆

人类基因组计划的任务是哪几种图谱 急!!!

(1). 质粒文库 质粒是最早用于基因克隆的载体。现已有各种适用于不同工作的如克隆、表达、测序等专用商品质粒。但在构建基因文库上,由于质粒相对较小并只能容纳比自身更小的片段,因此它不能用于构建核基因组文库,通常只用来构建短序列的克隆文库。例如叶绿体DNA分子较小,可以用质粒构建叶绿体DNA文库。质粒载体可用于生物cDNA文库构建。但只适合于高丰度的mRNA。(2). 噬菌体文库 目前用于基因克隆的噬菌体载体及其衍生载体很多,如单链的M13噬菌体载体、λ噬菌体载体、P1噬菌体载体、噬菌粒(phagemid或phasmid)等。其中使用最多的是入噬菌体。 λ-DNA为双链结构,长49kb。线性分子两端各有一条12个核苷酸的黏性末端称cos位点。分子中有约15kb可去掉的非必要基因区,又称“填充区”, “填充区”两侧的序列含有其增殖所必需的全部基因,称为左、右臂。“填充区”可被外源DNA取代,构成重组体,这是它成为克隆载体的结构基础。由于噬菌体头部包装容量的限制,重组λ-DNA分子大小只能在39—52kb之间。(3). 黏粒文库 黏粒(cosmid)也称柯斯质粒,是人工构建的由λ噬菌体的COS序列、质粒的复制子序列及抗生素抗性基因序列组合而成的一类特殊的质粒载体。COS序列是DNA包装进噬菌体颗粒所必须的。复制子通常是使用ColEl或pMBl的复制起始位点。黏粒具有λ噬菌体的某些性质,在克隆了大小合适的外源DNA片段并且在体外被包装成噬菌体颗粒后,能高效转导对入噬菌体敏感的大肠杆菌宿主细胞。在宿主细胞内按λ噬菌体方式环化,但不能通过溶菌周期,无法形成子代噬菌体颗粒(因分子中不具入噬菌体全部必要基因)。它也具有质粒载体的主要性质,在宿主细胞内可以像其他质粒一样复制,并与松弛型质粒相同,适量的氯霉素可促进扩增。因具抗生素基因,可以通过抗生素抗性筛选重组子。黏粒载体在构建时也加上了设在插入失活基因内的多克隆位点。黏粒载体的分子较小(2.8—24kb),但克隆容量很高,对外源DNA长度的要求是30~45 kb,上限几乎是入噬菌体载体容量(23 kb)的2倍,所以黏粒载体在核基因组文库构建上具有相当的优势,可克隆包括3,和5’调控区在内的完整的植物基因。(4).人工染色体文库 人工染色体载体是利用真核生物染色体或原核生物基因组的功能元件构建的能克隆大于50kbDNA片段的人工载体。其中有的载体既可用于克隆,又能直接转化,是进行基因功能研究的良好载体。近年来陆续发展起来的人工染色体文库有YAC库、BAC库、BIBAC库、PAC库及TAC库。

什么是Genbank,它的主要用途是什么?

1、遗传图谱(genetic map)

又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是个关键。

第1代标记

经典的遗传标记,例如ABO血型位点标记,HLA位点标记。70年中后期,限制性片段长度多态性(RFLP),位点数目大与105,用限制性内切酶特异性切割DNA链,由于DNA的一个“点”上的变异所造成的能切与不能切两种状况,可产生不同长度的片段(等位片段),可用凝胶电泳显示多态性,从片段多态性的信息与疾病表型间的关系进行连锁分析,找到致病基因。如Huntington症。但每次酶切2-3个片段,信息量有限。

第2代标记

1985年,小卫星中心(minisatellite core)、可变串联重复VNTR(variable number of tandem repeats)可提供不同长度的片段,其重复单位长度为6至12个核苷酸 ,1989年微卫星标记(microsatellite marker)系统被发现和建立,重复单位长度为2~6个核苷酸,又称简短串联重复(STR)。

第3代标记

1996年MIT的Lander ES又提出了SNP(single nucleotide polymorphysm)的遗传标记系统。对每一核苷酸突变率为10-9,双等位型标记,在人类基因组中可达到300万个,平均约每1250个碱基对就会有一个。3~4个相邻的标记构成的单倍型(haplotype)就可有8~16种。

2、物理图谱(physical map)

物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法——标记片段的部分酶解法,来说明图谱制作原理。

用部分酶解法测定DNA物理图谱包括二个基本步骤:

(1)完全降解

选择合适的限制性内切酶将待测DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该DNA链的酶切片段的数目和大小。

(2)部分降解

以末端标记使待测DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该DNA链,即通过控制反应条件使DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。下面是测定某组蛋白基因DNA物理图谱的详细说明。

完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段或一特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征型序列(如CpG序列、Alu序列,isochore)等的标记图,人类基因组的细胞遗传学图(即染色体的区、带、亚带,或以染色体长度的百分率定标记),最终在分子水平上与序列图的统一。

基本原理是把庞大的无从下手的DNA先“敲碎”,再拼接。以Mb、kb、bp作为图距,以DNA探针的STS(sequence tags site)序列为路标。1998 年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有STS对应序列的DNA的克隆片段连接成相互重叠的“片段重叠群(contig)”。用“酵母人工染色体(YAC)作为载体的载有人DNA片段的文库已包含了构建总体覆盖率为100%、具有高度代表性的片段重叠群”,近几年来又发展了可靠性更高的BAC、PAC库或cosmid库等。

3、序列图谱

随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。

大规模测序基本策略

逐个克隆法

对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。

全基因组鸟枪法

在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)。

基因图谱

4、基因图谱

基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。

原理

所有生物性状和疾病都是由结构或功能蛋白质决定的,而已知的所有蛋白质都是由mRNA编码的,这样可以把mRNA通过反转录酶合成cDNA或称作EST的部分的cDNA片段,也可根据mRNA的信息人工合成cDNA或cDNA片段,然后,再用这种稳定的cDNA或EST作为“探针”进行分子杂交,鉴别出与转录有关的基因。用PolyA互补的寡聚T或克隆载体的相关序列作为引物对mRNA双端尾侧的几百个bp进行测序得到EST(表达序列标签)。2000年6月,EMBL中EST数量已有4,229,786。[4]

基因图谱的意义

在于它能有效地反应在正常或受控条件中表达的全基因的时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。

人类基因组是一个国际合作项目:表征人类基因组,选择的模式生物的DNA测序和作图,发展基因组研究的新技术,完善人类基因组研究涉及的伦理、法律和社会问题,培训能利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进人类健康。

人类基因组怎样形成的?

GenBank 概述

· 什么是GenBank? GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。

· 纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。

· 访问GenBank - 通过 Entrez Nucleotides 来查询。用 accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenBank 和其他数据库中进行序列相似搜索。用E-mail来访问Entrez 和 BLAST 可以通过 Query 和 BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。

· 增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。

· 公布通知,最新 - 最近和即将有的变化,GenBank 的分类,数据增长统计,GenBank 的引用。

· 公布通知,旧 - 同上相同,是过去公布的统计。

· 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据

· 关于提交序列数据,收到 accession number,和对纪录作更新的一般信息。

· BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用 VecScreen 去除载体)

· Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以懒⑹褂茫?蛘哂没?赥CP/IP的"network aware"模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)

· ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。

· GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他。

· HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。)

· STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。

· 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。

国际核苷酸序列数据库合作组织

· GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。

· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。

FTP GenBank 及每日更新

· GenBank普通文件格式 - 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。

· ASN.1格式 - 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。

· FASTA格式 - 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。

人类基因组,又译人类基因体,是智慧人种的基因组。共组成24个染色体,分别是22个体染色体、X染色体与Y染色体,含有约30亿个DNA碱基对。碱基对是以氢键相结合的两个含氮碱基,以A、T、C、G四种碱基排列成碱基序列。其中一部分的碱基对组成了大约20000到25000个基因。

全世界的生物学与医学界在人类基因组计划中,调查人类基因组中的真染色质基因序列。发现人类的基因数量比原先预期的更少,其中的外显子,也就是能够制造蛋白质的编码序列,只占总长度的1.5%。

现代遗传学家认为,基因是DNA(脱氧核糖核酸)分子上具有遗传效应的特定核苷酸序列的总称,是具有遗传效应的DNA分子片段。基因位于染色体上,并在染色体上呈线性排列。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。不同人种之间头发、肤色、眼睛、鼻子等不同,是基因差异所致。

人类只有一个基因组,大约有5万~10万个基因。

随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发生巨大变化。基因药物已经走进人们的生活,利用基因治疗更多的疾病不再是一个奢望。因为随着我们对人类本身的了解迈上新的台阶,很多疾病的病因将被揭开,药物就会设计得更好些,治疗方案就能“对因下药”,生活起居、饮食习惯有可能根据基因情况进行调整,人类的整体健康状况将会提高,21世纪的医学基础将由此奠定。

利用基因,人们可以改良果蔬品种,提高农作物的品质,更多的转基因植物和动物、食品将问世,人类可能在新世纪里培育出超级作物。通过控制人体的生化特性,人类将能够恢复或修复人体细胞和器官的功能,甚至改变人类的进化过程。

人类基因组计划人类基因组计划(HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法兰西共和国、德意志联邦共和国、日本和我国科学家共同参与了这一价值达30亿美元的人类基因组计划。按照这个计划的设想,在2005年,要把人体内约10万个基因的密码全部解开,同时绘制出人类基因的谱图。换句话说,就是要揭开组成人体10万个基因的30亿个碱基对的秘密。人类基因组计划与曼哈顿计划和阿波罗计划并称为三大科学计划。

1986年,诺贝尔奖获得者Renato Dulbecco发表短文《肿瘤研究的转折点:人类基因组测序》(Science, 231: 1055~1056)。文中指出:“如果我们想更多地了解肿瘤,我们从现在起必须关注细胞的基因组。……从哪个物种着手努力?如果我们想理解人类肿瘤,那就应从人类开始。……人类肿瘤研究将因对DNA的详细知识而得到巨大推动。”

什么是基因组·基因组就是一个物种中所有基因的整体组成。人类基因组有两层意义:遗传信息和遗传物质。要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。

为什么选择人类的基因组进行研究?因为人类是在“进化”历程上最高级的生物,对它的研究有助于认识自身、掌握生老病规律、疾病的诊断和治疗、了解生命的起源。

测出人类基因组DNA的30亿个碱基对的序列,发现所有人类基因,找出它们在染色体上的位置,破译人类全部遗传信息。

在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。

HGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。

HGP的主要任务是人类的DNA测序,此外还有测序技术、人类基因组序列变异、功能基因组技术、比较基因组学、社会、法律、伦理研究、生物信息学和计算生物学、教育培训等目的。

1.遗传图谱

遗传图谱又称连锁图谱,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cm)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是个关键。

第一代标记:经典的遗传标记,例如ABO血型位点标记,HLA位点标记。20世纪70年中后期,限制性片段长度多态性(RFLP),位点数目大与105,用限制性内切酶特异性切割DNA链,由于DNA的一个“点”上的变异所造成的能切与不能切两种状况,可产生不同长度的片段(等位片段),可用凝胶电泳显示多态性,从片段多态性的信息与疾病表型间的关系进行连锁分析,找到致病基因。如Huntington症。但每次酶切2~3个片段,信息量有限。

第二代标记:1985年,小卫星中心、可变串联重复VNTR可提供不同长度的片段,其重复单位长度为6~12个核苷酸,1989年微卫星标记系统被发现和建立,重复单位长度为2~6个核苷酸,又称简短串联重复(STR)。

第三代标记:1996年MIT的Lander ES又提出了SNP(single nucleotide polymorphysm)的遗传标记系统。对每一核苷酸突变率为10~9,双等位型标记,在人类基因组中可达到300万个,平均约每1250个碱基对就会有一个。3~4个相邻的标记构成的单倍型(haplotype)就可有8~16种。

2.物理图谱

物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法——标记片段的部分酶解法,来说明图谱制作原理。

用部分酶解法测定DNA物理图谱包括两个基本步骤:

(1)完全降解:选择合适的限制性内切酶将待测DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该DNA链的酶切片段的数目和大小。

(2)部分降解:以末端标记使待测DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该DNA链,即通过控制反应条件使DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。下面是测定某组蛋白基因DNA物理图谱的详细说明。

完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段或一特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征型序列(如CpG序列、Alu序列,isochore)等的标记图,人类基因组的细胞遗传学图(即染色体的区、带、亚带,或以染色体长度的百分率定标记),最终在分子水平上与序列图的统一。

基本原理是把庞大的无从下手的DNA先“敲碎”,再拼接。以Mb、kb、bp作为图距,以DNA探针的STS(sequence tags site)序列为路标。1998 年完成了具有52000个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有STS对应序列的DNA的克隆片段连接成相互重叠的“片段重叠群(contig)”。用“酵母人工染色体(YAC)作为载体的载有人DNA片段的文库已包含了构建总体覆盖率为100%、具有高度代表性的片段重叠群”,近几年来又发展了可靠性更高的BAC、PAC库或cosmid库等。

3.序列图谱

随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。

HGP对人类的重要意义

1.HGP对人类疾病基因研究的贡献

人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”。

2.HGP对医学的贡献

基因诊断、基因治疗和基于基因组知识的治疗、基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。

3.HGP对生物技术的贡献

(1)基因工程药物:分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体。

(2)诊断和研究试剂产业:基因和抗体试剂盒、诊断和研究用生物芯片、疾病和筛药模型。

(3)对细胞、胚胎、组织工程的推动:胚胎和成年期干细胞、克隆技术、器官再造。

4.HGP对制药工业的贡献

筛选药物的靶点:与组合化学和天然化合物分离技术结合,建立高通量的受体、酶结合试验以知识为基础的药物设计:基因蛋白产物的高级结构分析、预测、模拟——药物作用“口袋”。

个体化的药物治疗:药物基因组学。

5.HGP对社会经济的重要影响

生物产业与信息产业是一个国家的两大经济支柱;发现新功能基因的社会和经济效益;转基因食品;转基因药物(如减肥药,增高药)。

6.HGP对生物进化研究的影响

生物的进化史,都刻写在各基因组的“天书”上;草履虫是人的亲戚——13亿年;人是由300万~400万年前的一种猴子进化来的;人类第一次“走出非洲”——200万年的古猿;人类的“夏娃”来自于非洲,距今20万年——第二次“走出非洲”。

7.HGP带来的负面作用

侏罗纪公园不只是科幻故事;种族选择性灭绝性生物武器;基因专利战;基因资源的掠夺战;基因与个人隐私。