Réorganisation universelle des séquences biologiques pour un séquençage de novo des peptides amélioré
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing
May 23, 2025
Auteurs: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI
Résumé
Le séquençage de novo des peptides est une tâche cruciale en protéomique. Cependant, les performances des méthodes actuelles basées sur l'apprentissage profond sont limitées par la complexité inhérente des données de spectrométrie de masse et la distribution hétérogène des signaux de bruit, entraînant des biais spécifiques aux données. Nous présentons RankNovo, le premier cadre de reranking profond qui améliore le séquençage de novo des peptides en exploitant les forces complémentaires de plusieurs modèles de séquençage. RankNovo utilise une approche de reranking par liste, modélisant les peptides candidats comme des alignements multiples de séquences et exploitant l'attention axiale pour extraire des caractéristiques informatives parmi les candidats. De plus, nous introduisons deux nouvelles métriques, PMD (Peptide Mass Deviation) et RMD (Residual Mass Deviation), qui offrent une supervision fine en quantifiant les différences de masse entre les peptides au niveau de la séquence et des résidus. Des expériences approfondies démontrent que RankNovo dépasse non seulement ses modèles de base utilisés pour générer les candidats d'entraînement pour le pré-entraînement au reranking, mais établit également un nouveau benchmark de pointe. Par ailleurs, RankNovo montre une forte généralisation zero-shot pour des modèles inédits dont les générations n'ont pas été exposées pendant l'entraînement, soulignant sa robustesse et son potentiel en tant que cadre universel de reranking pour le séquençage des peptides. Notre travail présente une nouvelle stratégie de reranking qui remet fondamentalement en question les paradigmes actuels basés sur un seul modèle et repousse les frontières du séquençage de novo précis. Notre code source est disponible sur GitHub.
English
De novo peptide sequencing is a critical task in proteomics. However, the
performance of current deep learning-based methods is limited by the inherent
complexity of mass spectrometry data and the heterogeneous distribution of
noise signals, leading to data-specific biases. We present RankNovo, the first
deep reranking framework that enhances de novo peptide sequencing by leveraging
the complementary strengths of multiple sequencing models. RankNovo employs a
list-wise reranking approach, modeling candidate peptides as multiple sequence
alignments and utilizing axial attention to extract informative features across
candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass
Deviation) and RMD (residual Mass Deviation), which offer delicate supervision
by quantifying mass differences between peptides at both the sequence and
residue levels. Extensive experiments demonstrate that RankNovo not only
surpasses its base models used to generate training candidates for reranking
pre-training, but also sets a new state-of-the-art benchmark. Moreover,
RankNovo exhibits strong zero-shot generalization to unseen models whose
generations were not exposed during training, highlighting its robustness and
potential as a universal reranking framework for peptide sequencing. Our work
presents a novel reranking strategy that fundamentally challenges existing
single-model paradigms and advances the frontier of accurate de novo
sequencing. Our source code is provided on GitHub.Summary
AI-Generated Summary