BatMeth2

为了更方便地完成DNA甲基化数据分析,我们打包了所有功能,以完成易于使用的自动运行包,用于DNA甲基化分析。在执行BatMeth2期间,会生成有关样本统计信息的html报告。

  1. 在进行数据分析前,需要准备基因组和索引文件
    1. 首先准备fasta格式的参考基因组
    2. 对于WGBS数据,建立索引:
      BatMeth2 build_index GENOME.fa 
    3. 对于RRBS数据,建立索引:
      BatMeth2 build_index rrbs GENOME.fa 
  2. 数据分析
    • 对于原始数据,运行命令
    • ###### COMMAND
      BatMeth2 pipel --fastp ~/location/to/fastp -1 Raw_reads_1.fq.gz -2 Raw_read_2.fq.gz -g ./batmeth2index/genome.fa -o meth -p 6 --gff ./gene.gff
      
    • 经过质量过滤后的数据,运行命令:
    • ###### COMMAND
      BatMeth2 pipel -1 Clean_reads_1.fq.gz -2 Clean_read_2.fq.gz -g ./batmeth2index/genome.fa -o meth -p 6 --gff ./gene.gff
      

BatMeth2 分析流程主要包含:测序序列质量过滤、DNA甲基化序列比对、DNA甲基化水平计算、DNA甲基化水平功能注释以及DNA甲基化水平可视化等功能。

主要参数如下:

  1. 数据质量控制
  2. --fastp fastp程序路径, 如果未指定--fastp参数,输入文件应该使用质控后的数据
  3. 序列比对
  4. --aligner 指定比对程序,默认BatMeth2,可选程序bwa-meth, bsmap, bismark2, no(输出目录下已有比对结果文件)
  5. 必要参数
  6.  -i  输入文件,如果是双端数据,请使用-1, -2参数,输入文件可以使用逗号分隔
     -1  输入文件左端的文件,如果是单端请使用-i参数
     -2  输入文件右端的文件
     -g  比对使用的参考基因组路径
     -p  线程数,默认6
     -O  输出结果目录,默认是输出到当前目录下(./)
     -o  输出文件的前缀
  7. 选用其他比对软件时:
  8. --go 选用其他比对软件(bsmap/bwa-meth/bismark)进行比对时,需指定该软件对应的基因组索引文件
  9. 计算甲基化水平
  10.  --Qual       当read质量分数>=Q,用于甲基化水平分析,默认是10
     --redup      去除PCR冗余,0或者1,默认是0.
     --region     设置计算甲基化水平区间大小,可用于后续差异分析,默认参数是1000bp。
     -f           对于sam格式输出文件,包含methState属性。[0或者1],默认为0
     --coverage   设置最小的覆盖度,默认是5
     --binCover   每个区域最小的nCs,默认是3
     --chromstep  染色体使用100000bp的重叠滑动窗口,步长为50000bp。 默认为:50000(bp)
  11. DNA甲基化功能注释
  12.  --gtf/--gff/--bed  Gtf文件,gff文件或者bed文件
     --distance         分布于基因bocy和上下游的DNA甲基化水平。设置上游和下游的距离,默认是2000bp
     --step             基因及其两侧序列使用序列长度的5%的重叠滑动窗口,步长为序列长度的2.5%,默认步长为0.025(2.5%)
     -C                 测序覆盖度不能超过该数值,默认是1000
     --coverage         设置最小的覆盖度,默认是5
     --binCover         每个区域最小的nCs,默认是3