千人基因组数据(1000genome project) - 知乎

2024-04-01 12:55:41 比赛排行 admin
千人基因组数据(1000genome project) - 知乎

  请大家批评指正!!

  大家可以在评论区提出看法哦,因为我不能保证我下载的数据是100%正确的,以及大家有热心的可以教教我怎么使用这个数据与自己数据结合做质控吗?

  千人基因组数据的一个教程,网址是这个

  https://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/working/20120214_1000genomes_tutorial/Using_1000_genomes_20120216.pdf

  希望对大家有帮助,附件在下方Using_1000_genomes_20120216.pdf

  不过我还是不知道怎么下载千人基因组中参考基因组是hg38的人的数据,我想用这个数据与我的数据做GWAS前的基因质控中PCA这步,请问大家怎么操作啊?救救孩子把

  好消息,我应该找到参考基因组是hg38的数据了

  参考文章是

  Variant calling on the GRCh38 assembly with the data from phase three of the 1000 Genomes Project

  文章最前端的Data Availability Statement部分有链接

  http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/release/20190312_biallelic_SNV_and_INDEL/

  然后数据如图所示

  就是长这个样,不过我还得看看怎么把每条染色体合并,然后转成PLINK格式

  待更新。。。。

  我按网上教程安装了aspera,网址是https://zhuanlan.zhihu.com/p/245450890,

  然后用这个命令下载了这个页面的数据

  ascp -i /自己路径/.aspera/connect/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -P33001 -L- fasp-g1k@fasp.1000genomes.ebi.ac.uk:vol1/ftp/data_collections/1000_genomes_project/release/20190312_biallelic_SNV_and_INDEL/ALL.chr1.shapeit2_integrated_snvindels_v2a_27022019.GRCh38.phased.vcf.gz https://zhuanlan.zhihu.com/p/

  最后一行的 https://zhuanlan.zhihu.com/p/意思是下载到当下路径下

  注意的是ALL.chr1.shapeit2_integrated_snvindels_v2a_27022019.GRCh38.phased.vcf.gz

  这里的染色体编号需要修改