干货分享

GWAS的meta分析获取疾病易感基因

研究背景:
应用meta分析方法对关联数据进行整合分析,在易感基因研究领域非常普遍。Meta分析可以有效解决关联分析样本量不足而导致的统计效力较低的缺陷。随着HapMap数据库中SNP数据的完善和插值算法(Imputation)的发展,对全基因数据进行meta分析已经成为可能。在过去的两年中,利用GWAS数据进行meta分析的论文层出不穷。为了获得较高的效力,研究中使用的样本量往往大于10,000。研究对象大多涉及到目前GWAS结果已经发表的而且研究较多的疾病如抑郁症、特应性皮炎、冠心病、肥胖、克隆病、糖尿病、类风湿性关节炎、肿瘤等。由于研究的效力提高,这些研究又发现了很多新的易感区域,其OR值一般小于1.2,而这些区域在单个独立的GWAS研究中往往是不可能发现的。
方法:
1. 样本质控:计算样本分型成功率(callrate=成功分型的 SNPs 个数/598821,去除callrate<98%的样本(基因分型数据可以利用Hapmap的结果)。去除分型成功率较低的样本;利用plink进行样本亲缘关系检验;利用Eigenstrat软件进行样本主成份分析,剔除离群样本。

2. SNP质控:去除XYM染色体上的SNP,计算SNP的分型成功率(callrate 成功分型的样本例数/2252,去除SNPcall rate<90%的样本。去除MAF小于0.01SNP。去除LD检验不平衡的SNP

3. Imputation,填补分型数据。填补之前需要进行数据校正(正负链校正,位置校正1),使用MACH或者IMPUTE2软件进行imputation


4. 使用METAL软件进行两组GWAS数据meta分析。


5. meta分析数据作图。绘制全基因组关联的曼哈顿图以及QQ图。
 

6. 实验验证:根据meta分析的结果选择最有可能的SNP进行实验验证。
 

7. meta分析结果与验证数据的合并统计。
 

8.显著关联区域内SNPs独立性检验:利用Haploview进行LD

分析。
分析流程:

示例结果:

Fig2. GWAS初筛阶段人群分层

Fig3. meta分析统计结果Q-Q

Fig4. meta分析后显著SNP位点分布曼哈顿图

Fig5. 疾病易感区域SNP疾病关联性分析散点图

(0)

本文由 生物知识学习 作者:来源互联网 发表,转载请注明来源!

热评文章

发表评论