デノボペプチドシーケンシングの精度向上のための普遍的な生物学的配列リランキング
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing
May 23, 2025
著者: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI
要旨
デノボペプチドシーケンシングはプロテオミクスにおける重要な課題である。しかし、現在の深層学習ベースの手法の性能は、質量分析データの本質的な複雑さとノイズ信号の不均一な分布によって制限されており、データ固有のバイアスを引き起こしている。本論文では、複数のシーケンシングモデルの相補的な強みを活用してデノボペプチドシーケンシングを強化する初めての深層リランキングフレームワークであるRankNovoを提案する。RankNovoはリストワイズリランキングアプローチを採用し、候補ペプチドを多重配列アラインメントとしてモデル化し、軸方向アテンションを用いて候補間の情報豊かな特徴を抽出する。さらに、ペプチド間の質量差を配列レベルと残基レベルで定量化する2つの新しい指標、PMD(ペプチド質量偏差)とRMD(残基質量偏差)を導入し、繊細な監督を提供する。大規模な実験により、RankNovoはリランキング事前学習のための訓練候補を生成するために使用されたベースモデルを上回るだけでなく、新たな最先端のベンチマークを確立することが示された。さらに、RankNovoは訓練中に曝露されなかった未知のモデルに対する強力なゼロショット汎化能力を示し、その堅牢性とペプチドシーケンシングのための普遍的なリランキングフレームワークとしての可能性を強調している。我々の研究は、既存の単一モデルパラダイムに根本的に挑戦し、正確なデノボシーケンシングの最前線を進める新たなリランキング戦略を提示する。ソースコードはGitHubで提供されている。
English
De novo peptide sequencing is a critical task in proteomics. However, the
performance of current deep learning-based methods is limited by the inherent
complexity of mass spectrometry data and the heterogeneous distribution of
noise signals, leading to data-specific biases. We present RankNovo, the first
deep reranking framework that enhances de novo peptide sequencing by leveraging
the complementary strengths of multiple sequencing models. RankNovo employs a
list-wise reranking approach, modeling candidate peptides as multiple sequence
alignments and utilizing axial attention to extract informative features across
candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass
Deviation) and RMD (residual Mass Deviation), which offer delicate supervision
by quantifying mass differences between peptides at both the sequence and
residue levels. Extensive experiments demonstrate that RankNovo not only
surpasses its base models used to generate training candidates for reranking
pre-training, but also sets a new state-of-the-art benchmark. Moreover,
RankNovo exhibits strong zero-shot generalization to unseen models whose
generations were not exposed during training, highlighting its robustness and
potential as a universal reranking framework for peptide sequencing. Our work
presents a novel reranking strategy that fundamentally challenges existing
single-model paradigms and advances the frontier of accurate de novo
sequencing. Our source code is provided on GitHub.Summary
AI-Generated Summary