Réorganisation universelle des séquences biologiques pour un séquençage de novo des peptides amélioré

papers.abstract

Le séquençage de novo des peptides est une tâche cruciale en protéomique. Cependant, les performances des méthodes actuelles basées sur l'apprentissage profond sont limitées par la complexité inhérente des données de spectrométrie de masse et la distribution hétérogène des signaux de bruit, entraînant des biais spécifiques aux données. Nous présentons RankNovo, le premier cadre de reranking profond qui améliore le séquençage de novo des peptides en exploitant les forces complémentaires de plusieurs modèles de séquençage. RankNovo utilise une approche de reranking par liste, modélisant les peptides candidats comme des alignements multiples de séquences et exploitant l'attention axiale pour extraire des caractéristiques informatives parmi les candidats. De plus, nous introduisons deux nouvelles métriques, PMD (Peptide Mass Deviation) et RMD (Residual Mass Deviation), qui offrent une supervision fine en quantifiant les différences de masse entre les peptides au niveau de la séquence et des résidus. Des expériences approfondies démontrent que RankNovo dépasse non seulement ses modèles de base utilisés pour générer les candidats d'entraînement pour le pré-entraînement au reranking, mais établit également un nouveau benchmark de pointe. Par ailleurs, RankNovo montre une forte généralisation zero-shot pour des modèles inédits dont les générations n'ont pas été exposées pendant l'entraînement, soulignant sa robustesse et son potentiel en tant que cadre universel de reranking pour le séquençage des peptides. Notre travail présente une nouvelle stratégie de reranking qui remet fondamentalement en question les paradigmes actuels basés sur un seul modèle et repousse les frontières du séquençage de novo précis. Notre code source est disponible sur GitHub.

English

De novo peptide sequencing is a critical task in proteomics. However, the performance of current deep learning-based methods is limited by the inherent complexity of mass spectrometry data and the heterogeneous distribution of noise signals, leading to data-specific biases. We present RankNovo, the first deep reranking framework that enhances de novo peptide sequencing by leveraging the complementary strengths of multiple sequencing models. RankNovo employs a list-wise reranking approach, modeling candidate peptides as multiple sequence alignments and utilizing axial attention to extract informative features across candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass Deviation) and RMD (residual Mass Deviation), which offer delicate supervision by quantifying mass differences between peptides at both the sequence and residue levels. Extensive experiments demonstrate that RankNovo not only surpasses its base models used to generate training candidates for reranking pre-training, but also sets a new state-of-the-art benchmark. Moreover, RankNovo exhibits strong zero-shot generalization to unseen models whose generations were not exposed during training, highlighting its robustness and potential as a universal reranking framework for peptide sequencing. Our work presents a novel reranking strategy that fundamentally challenges existing single-model paradigms and advances the frontier of accurate de novo sequencing. Our source code is provided on GitHub.

Réorganisation universelle des séquences biologiques pour un séquençage de novo des peptides amélioré

Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing

papers.abstract

Support