中草药  2014, Vol. 45 Issue (16): 2390-2394
0
  PDF    
党参转录组中SSR位点信息分析
王东, 曹玲亚, 高建平     
山西医科大学药学院, 山西 太原 030001
摘要目的 采用生物信息学方法分析党参转录组文库EST序列简单重复序列(SSR)位点,快速、大规模鉴定党参功能性SSR。方法 使用MicroSAtellite(MISA)软件分析党参高通量转录组SSR的分布频率和重复基元的类型特征,利用软件Primer3设计引物,并通过SSRFinder校验SSR,筛选SSR引物。结果 从45 511条Unigenes中共搜到7 327个SSR位点,分布在6 017条Unigenes序列中,发生频率为12.22%,共有415种重复基元,平均每4 520 bp含1个SSR位点,二核苷酸重复占主要地位,发生频率为58.67%,在所有重复基元中,AG/CT出现频率最高。共获得4 329条SSR引物。结论 大规模的SSR分子标记开发将有助于党参遗传多样性与分子育种研究。
关键词党参     转录组     SSR     MicroSAtellite软件     引物    
Data mining of simple sequence repeats in Codonopsis pilosula transcriptome
WANG Dong, CAO Ling-ya, GAO Jian-ping    
College of Pharmacy, Shanxi Medical University, Taiyuan 030001, China
Abstract: Objective To rapidly and largely identify the functional simple sequence repeat (SSR) in transcriptome dataset of Codonopsis pilosula based on bioinformatics analysis. Methods MicroSAtellite (MISA) sofeware was used to analyze the distributing frequency of high-flux transcriptome SSR and the basic characteristics of repeat motifs. Primers were designed using Primer3, and SSRFinder was used to check SSR and screen the SSR primers. Results SSR loci (7 327) were obtained from 45 511 unigenes, distributed in 6 017 unigenes (12.22%). There are 415 kinds of repeat motifs existing in C.pilosula transcriptome. On average, SSRs occurred every 4 520 bp in length. Dinucleotid repeats predominated with an occurrence frequency of 58.67%, and AG/CT was the most frequent one among all the repeat types. A total of 4 329 primer pairs were designed for marker development. Conclusion The large number of SSR genetic markers developed in the present study should contribute greatly to research into genetic diversity and germplasm characterization in C. pilosula.
Key words: Codonopsis pilosula (Franch.) Nannf     transcriptome     simple sequence repeat     MicroSAtellite     primer    

党参为桔梗科党参属党参Codonopsis pilosula (Franch.) Nannf、素花党参C. pilosula Nannf. var. modesta (Nannf.) L. T. Shen或川党参C. tangshen Oliv. 的干燥根,性平、味甘,具有补中益气、健脾益肺之功效[1]。党参产地众多,种类各异,主产于山西、甘肃、陕西、四川、湖北等省,主要为栽培品,少量为野生。目前我国党参资源破坏严重,野生资源逐渐变得稀少,急需对药源进行保护[2]。利用分子标记对其遗传学背景进行研究,研究结果可对制定合理有效的保护策略提供科学依据。

目前尚缺乏党参遗传和基因组信息研究,遗传多样性研究和分子标记研究也只有张建清等[3]利用RAPD分析甘肃栽培的党参和素花党参在居群水平上的遗传多样性;李忠虎等[4]利用g-SSR技术分析发现党参野外居群具有较丰富的遗传多样性水平,并且筛选出5对g-SSR引物能够在党参4个近缘物种成功扩增;赵莎等[5]曾采用党参药材中提取的ITS/ITS2序列对党参药材及其混淆品进行鉴定,但不能成功鉴别党参3个基原物种;He等[6]利用ITS/ITS2序列分析从甘肃和重庆搜集的65个党参样本,成功鉴别党参3个基原物种;苏强等[7]初步建立党参AFLP分析体系。目前还缺乏能够大量应用于党参种质鉴定、遗传图谱构建、功能基因定位等研究的简便、高效、稳定且具有种属特异性的分子标记体系。

简单重复序列(simple sequence repeat,SSR)又称微卫星DNA,SSR标记是较为理想的遗传标记,具有数量丰富、分布广泛、多态性强和共显性遗传易于分析等特点[8]。SSR按来源分,有基因组SSR(g-SSR)和转录组来源的SSR(EST-SSR),相对于g-SSR,EST-SSR标记无需构建基因组文库、杂交、测序,避免了大量人力、物力和时间的投入,同时EST-SSR多态性可能与基因功能直接相关,在相近植物间具有良好通用性[9],而且转化率也高。目前药用植物中已有人参[10]、丹参[11]、西洋参[12]和金银花[13]等借助现有测序数据开发了EST-SSR。研究主要集中于遗传多样性评价、种质鉴定、标记通用性等方面。为此,本研究基于党参转录组文库高通量测序结果,利用MicroSAtellite(MISA)[14]软件搜索党参SSR位点,分析其分布、组成特征,并进行初步可用性评价,以期为党参遗传图谱构建、遗传多样性分析、功能基因定位和比较作图等研究提供理论基础。

1 材料和方法 1.1 党参转录组数据来源

转录组测序样本采自于山西省晋城市陵川县党参GAP基地,原植物由山西医科大学药学院高建平教授鉴定为党参Codonopsis pilosula (Franch.) Nannf。党参转录组数据来自于课题组前期利用Illumina高通量测序平台对党参进行的全转录组测序,共有45 511条Unigenes。

1.2 党参EST-SSR的筛选

为了检测党参中的SSR位点,使用软件MISA[14]对组装得到的Unigene序列进行SSR分析。所检测SSR位点包括单核苷酸重复、二核苷酸重复、三核苷酸重复、四核苷酸重复、五核苷酸重复和六核苷酸重复6类。判断标准为单核苷酸重复至少12次;二核苷酸重复至少6次;三核苷酸重复、四核苷酸重复至少5次;五核苷酸重复和六核苷酸重复至少4次。

1.3 党参EST-SSR引物设计

使用软件Primer3对SSR重复单元前后的序列设计引物,每条SSR产生5条引物。主要的引物设置参数如下:扩增产物长度80~300 nt,引物序列长度18~28 nt(最适宜长度为23 nt),退火温度为55~65 ℃(最佳退火温度为60 ℃),GC量为40%~65%(最适宜为50%)。

1.4 党参EST-SSR引物筛选

将设计出的引物通过以下方式筛选:(1)引物不能存在SSR;(2)将获得的引物比对到Unigene序列,引物的5’端允许有3个碱基的错配,3’端允许有1个碱基的错配;(3)去掉比对到不同Unigene上的引物,筛选唯一匹配的引物;(4)使用SSRFinder校验SSR,使用产物序列来寻找SSR,检验结果是否与MISA结果相同,并筛选出相同的SSR产物。

2 结果与分析 2.1 党参转录组中的SSR位点的数量与分布

利用软件MISA对党参转录组中的45 511条Unigenes的cDNA序列进行搜索。结果显示,7 327个SSR分布于6 017条Unigenes序列中,SSR发生频率(含有SSR的Unigene数目与总Unigene的数目之比)为12.22%,出现频率(检出SSR个数与总Unigene数目之比)为16.10%。平均每4 520 bp就含有1个SSR位点(表 1)。其中5 006条Unigenes只包含单个SSR位点,1 011条Unigenes包含2~4个SSR位点。

表 1 党参EST-SSR不同重复基元分布情况 Table 1 Distribution of different repeat motifs in C. pilosula transcriptome

党参EST-SSR重复类型丰富,单核苷酸至六核苷酸重复都可以发现。从SSR位点数量上看,出现最多的为一至三核苷酸重复,占到总SSR位点数量的94.1%。其中二核苷酸重复比例最高,可以占到58.7%;其次为三核苷酸和单核苷酸重复,分别为21.6%和13.8%。四、五、六核苷酸重复类型的数量很少,总计不足6%(表 1)。

党参转录组中SSR位点的序列总长度达到120 798 bp,SSR位点平均长度为16.49 bp,各类型SSR位点的平均长度分别为15.42、16.03、16.75、20.85、20.64、24.00 bp。党参转录组中SSR位点重复次数以6次(1 466)最多,占总SSR的20%;其次为重复次数7、5、10、9和8次,SSR位点个数在706~1 006。统计4~10次重复的SSR位点共有6 101个,占83.2%;11~24次重复的SSR位点共有1 226个,占16.7%(图 1)。

图 1 党参EST-SSR重复次数分布图Fig. 1 Distribution of EST-SSR repeat frequency in C. pilosula transcriptome
2.2 党参EST-SSR的特性

在党参转录组7 327个SSR位点中,共发现到415种重复基元,其中一至六核苷酸重复基元分别有2、4、10、18、48和122种(表 2)。以二核苷酸重复基元AG/CT最多,总SSR的43.78%;其次为二核苷酸重复基元AC/GT和单核苷酸重复基元A/T,分别占11.83%和10.65%;二核苷酸重复基元中,以AG/CT、AC/GT和AT/AT出现的数量最多,三者共占二核苷酸SSR的99.88%,CG/CG出现次数最少,仅占到二核苷酸SSR的0.12%。在三核苷酸重复基元中,AAG/CTT出现次数最多占三核苷酸SSR的27.7%;其次是ACC/GGT、ATC/ATG和AGG/CCT,分别为19.62%、14.26%和11.36%。其他四核苷酸、五核苷酸和六核苷酸重复基元类型较多,数量较少,出现频率均较低。

表 2 党参EST-SSR重复基元的类型 Table 2 EST-SSR repeat motifs in C. pilosula transcriptome
2.3 党参EST-SSR的可用性评价

SSR分子标记的多态性是判断其可用性的重要依据[15]。SSR的长度是影响其多态性高低的重要因素,当SSR长度大于或等于20 bp时多态性较高,长度在12~20 bp的SSR多态性中等,而长度在12 bp以下时多态性极低[16]。党参EST-SSRs的长度在12~25 bp,其中长度在12~20 bp的SSR有6 483条,占SSR总数的88.48%,这类SSR位点具有中等多态性;而长度在20 bp以上的SSR达到844条,占SSR总数的11.52%,这类SSR具有较高多态性。此外,根据Dreisigacker等[17]的发现,高级基元SSR多态性普遍比低级基元的低。经统计发现,长度在20 bp以上的党参EST-SSR中,包含低级基元一、二、三核苷酸SSR共564条。可以预计这部分多态性潜能高的SSR在党参上应具有较高的利用价值。

2.4 党参EST-SSR引物设计与筛选

为进一步在实验中利用筛选出的党参EST-SSR,本课题组使用Primer3软件对上下游序列均不小于150 bp的EST-SSR设计引物,每条序列产生5对引物,共有1 484条党参EST-SSR序列获得7 420对引物。通过去除不符合条件的引物,并将产物序列利用SSRFinder校验,检验结果是否与MISA结果一致,最终筛选出引物。结果表明,共有848条党参EST-SSR序列成功设计出4 329对引物(表 3),占到党参EST-SSR总数的8.6%。其中20 bp以上EST-SSR序列且包含低级基元一、二、三核苷酸共设计226对引物。

表 3 党参EST-SSR引物序列 Table 3 EST-SSR primer sequences in C. pilosula
3 讨论

党参转录组中共搜索到7 327个SSRs,平均出现频率为1/4 520。与其他药用植物比较,党参SSR出现的频率低于丹参(1/2 100)[11],高于人参[10](1/5 800)、金银花[13](1/7 490)、西洋参[12](1/7 500)和杜仲[18](1/11 610);同时与模式植物比较,也高于拟南芥(1/13 830)、大豆(1/7 400)、杨树(1/14 000)和棉花(1/20 000)[19]等植物,这表明党参转录组中SSR数量很丰富。

根据已有报道,大多数植物的EST-SSRs以三核苷酸和二核苷酸重复类型为主,但主要的重复基元类型有所差异[15]。研究发现党参EST-SSR以二核苷酸为最多的重复基元,其次是三核苷酸重复,这与人参、丹参以及茶树EST-SSR中的优势重复类型是一致的。从出现的频率来看,各种不同的重复基元出现最多的是AG/CT,其次是AC/GT和A/T。GC重复基元在多数植物中很难见到,但出现频率都极低[15]。在党参转录组中仅找到5个GC重复,出现频率也极低。此外,党参转录组中长度在20 bp以上的SSR达到844条,占SSR总数的11.52%,并且其中有66.82%是多态性潜能高的低级基元一、二、三核苷酸SSR,这部分SSR可能具有较高的利用价值。

对遗传学背景研究取决于合适的遗传分析工具的选择。而分子标记技术中,RAPD技术重复性差、不稳定;AFLP虽然稳定可靠,但成本高、对DNA质量要求高,实验程序复杂、工作量大;ITS条形码仅可用于药用植物及其易混伪品的鉴定。相比之下SSR标记具有共显性、高度可重复、多态性丰富、对DNA质量要求低、可通过PCR快速检测,是遗传学背景研究非常有效的工具。缺点是SSR标记具有特异性,必须进行PCR检测,存在引物开发问题[20]。本实验对所获得的党参EST-SSR利用软件设计引物,方法快速、通量大、成本低,并通过筛选共获得4 329对SSR引物,为党参的SSR分析奠定数据基础。

本研究结果表明党参转录组数据是SSR重要来源之一,与基因组SSR相比,EST-SSR反映了基因组的编码区域,可直接获得基因表达的信息,省去了SSR引物开发过程中的克隆和测序步骤,充分利用了现有测序数据,降低了开发成本。同时也明确了党参EST-SSR的基本特征,为进一步开发新的党参功能基因SSR标记奠定了基础。党参EST-SSR对于党参功能基因资源的开发利用、遗传资源评价、丰富其分子标记、种质资源改良和比较基因组学研究都具有重要的价值。

参考文献
[1] 中国药典[S]. 一部. 2010.
[2] 张向东, 高建平, 曹铃亚, 等. 中药党参资源及生产现状[J]. 中华中医药学刊, 2013, 31(3): 496-498.
[3] 张建清, 苏雪, 吴琼, 等. 药用植物党参的RAPD分析[J]. 中药材, 2006, 29(5): 417-420.
[4] 李忠虎, 刘晓东, 王小琦, 等. 党参微卫星引物筛选及群体遗传多样性研究[J]. 中草药, 2013, 44(2): 210-214.
[5] 赵莎, 辛天怡, 侯典云, 等. 党参药材及其混伪品的ITS/ITS2条形码鉴定研究[J]. 世界科学技术-中医药现代化, 2013, 15(3): 421-428.
[6] He J Y, Zhu S, Komatsu K, et al. Genetic polymorphism of medicinally-used Codonopsis species in an internal transcribed spacer sequence of nuclear ribosomal DNA and its application to authenticate Codonopsis Radix[J]. J Nat Med, 2014, 68(1): 112-124.
[7] 苏强, 杨静, 王哲, 等. 党参DNA-AFLP分析体系建立及条件优化[J]. 药物生物技术, 2010, 17(4): 326-330.
[8] Liu T, Zhu S, Fu L, et al. Development and characterization of 1 827 expressed Sequence tag-derived simple sequence repeat markers for ramie (Boehmeria nivea L. Gaud)[J]. PLoS One, 2013, 8(4): e60346.
[9] 张利达, 唐克轩. 植物EST-SSR标记开发及其应用[J]. 基因组学与应用生物学, 2010, 29(3): 534-541.
[10] Li C, Zhu Y, Guo X, et al. Transcriptome analysis reveals ginsenosides biosynthetic genes, microRNAs and simple sequence repeats in Panax ginseng CA Meyer[J]. BMC Genomics, 2013, 14(1): 245.
[11] 邓科君, 张勇, 熊丙全, 等. 药用植物丹参EST-SSR标记的鉴定[J]. 药学学报, 2009, 44(10): 1165-1172.
[12] 杨维泽, 金航, 赵振玲, 等. 西洋参EST资源的SSR信息分析[J]. 西南农业学报, 2011, 24(1): 275-278.
[13] 蒋超, 袁媛, 刘贵明, 等. 基于EST-SSR的金银花分子鉴别方法研究[J]. 药学学报, 2012, 47(6): 803-810.
[14] Lu X, Wang H, Liu B, et al. Three EST-SSR markers associated with QTL for the growth of the clam Meretrix meretrix revealed by selective genotyping[J]. Mar Biotechnol, 2013, 15(1): 16-25.
[15] 李珊, 周天华, 赵桂仿, 等. 马蹄香表达序列标签资源的SSR信息分析[J]. 中草药, 2010, 41(3): 464-468.
[16] 杨华, 陈琪, 韦朝领, 等. 茶树转录组中SSR位点的信息分析[J]. 安徽农业大学学报, 2012, 38(6): 882-886.
[17] Dreisigacker S, Zhang P, Warburton M L, et al. SSR and pedigree analyses of genetic diversity among CIMMYT wheat lines targeted to different megaenvironments[J]. Crop Sci, 2004, 44(2): 381-388.
[18] 黄海燕, 杜红岩, 乌云塔娜, 等. 基于杜仲转录组序列的SSR分子标记的开发[J]. 林业科学, 2013, 49(5): 176-181.
[19] Cardle L, Ramsay L, Milbourne D, et al. Computational and experimental characterization of physically clustered simple sequence repeats in plants[J]. Genetics, 2000, 156(2): 847-854.
[20] 李明芳, 郑学勤. 开发SSR引物方法之研究动态[J]. 遗传, 2004, 26(5): 769-776.