JiaoYuan's blog

使用 HMMER 查找基因的同源序列

2023-04-22

使用 HMMER 查找同源基因比 blast 更加准确,速度也更快,但使用方法很少有文章讲清楚,本文记录我使用 HMMER 的操作。

HMMER

HMMER 是基于隐马尔可夫模型,用于生物序列分析工作的一个非常强大的软件包,它的一般用途是识别同源蛋白或核苷酸序列和进行序列比对。与 BLAST、FASTA 等序列比对和数据库搜索工具相比,HMMER 更准确

从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中找同源序列,或者对一个新基因功能进行鉴定,使用 HMMER 比使用 blast 更有灵敏度且速度更快,但其应用远没有 blast 普及。

所需工具

Linux 系统环境、HMMER 软件、pfam 网站(http://pfam-legacy.xfam.org/)

下载隐马尔科夫模型

我以拟南芥的 SBP 家族为例
打开 pfam,输入基因家族的 pf 号点击 go 进行查询

也可以通过关键字查询。

查询后点击左侧的 Curation & model 下载 .hmm 文件,Alignments 选择 stockholm 并生成 txt 文件。

安装 HMMER

建议使用 conda 安装:

# 创建并激活 Python 环境,然后安装 hmmer
conda create -n bioinfo python=3.7 -y
conda activate bioinfo
conda install hmmer -y

构建 HMM 模型

在工作目录下执行:

hmmbuild xxx.hmm xxx.txt

进行比对

在工作目录下执行:

hmmsearch model.hmm target_sequences.fa > result.out

结果查看:

cat result.out

进一步筛选

可以结合 NCBI、TBtools 等工具进一步筛选,并用 MEME、CDD 等方法鉴定,排除假阳性。

Go to GitHub issues to discuss with me