13 July 2014 posted by zhoujj

向JBrowser导入数据,首先要弄清楚输入文件的格式,再根据要求导入JBrowser。

从事生物信息工作,80%的程序都是利用一些已有的生物信息分析工具完成的,所以搞清楚程序输入和输出特别重要。

常用生物信息数据格式,请参考(大部分生物研究材料都是英文的,如看不懂,也要慢慢看):

http://genome.ucsc.edu/FAQ/FAQformat.html

向JBrowser导入参考序列,有三种方法:

  1. 利用./bin/prepare-refseqs.pl导入fasta文件;

  2. 利用./bin/prepare-refseqs.pl导入gff3文件;

  3. 利用./bin/prepare-refseqs.pl,根据biodb-to-json.pl配置文件,从CHADO数据库中导入数据;

我推荐使用方法1,因为包含参考基因组和基因位置信息的gff3文件太大,导入时需要的很大的内存;另外数据要导入CHADO数据库也是一件挺复杂的事情,熟悉CHADO数据库的朋友可以使用方法3。

我详细描述一下方法1:

  • 利用./bin/prepare-refseqs.pl导入fasta文件;
# $JB = path_to_jbrowser # 这里$JB=/var/www/jbrowser
# 建立文件夹存在个人的JBrowser文件
mkdir zhoujj_jb

# 在JBrowser安装文件夹建立软连接
ln -s /home/zhoujj/zhoujj_jb /var/www/jbrowser

# 建立文件夹存放以hg19为参考基因组的tracks
mkdir -p ./json/hg19

# --fasta 输入文件
# --out json文件输出文件夹
perl $JB/bin/prepare-refseqs.pl --fasta ./hg19.fa --out ./json/hg19
  • 利用./bin/add-json.pl添加dataset_id,这个id会显示在参考基因组选择菜单;
perl $JB/bin/add-json.pl '{ "dataset_id": "hg19" }' ./json/hg19/trackList.json
  • 为基因组序列建立索引;
perl $JB/bin/generate-names.pl --dir ./json/hg19/ -v --sortMem 2048000000
  • 修改JBrowser配置文件;
sudo vim $JB/jbrowse.conf
# 添加以下命令
[datasets.hg19]
url  = ?data=zhoujj_jb/json/hg19
name = hg19
# 保存并退出

现在可以打开浏览器测试: http://host/jbrowser/index.html?data=zhoujj_jb/json/hg19

在JBrower中,导入参考序列fasta文件、bed文件、gff3文件后,要建立基因名或者序列名字的索引,才能在浏览器中正常查看。



blog comments powered by Disqus