Universelle biologische Sequenz-Neubewertung zur Verbesserung der De-Novo-Peptidsequenzierung

papers.abstract

Die De-novo-Peptidsequenzierung ist eine entscheidende Aufgabe in der Proteomik. Die Leistung aktueller Deep-Learning-basierter Methoden wird jedoch durch die inhärente Komplexität von Massenspektrometriedaten und die heterogene Verteilung von Rauschsignalen begrenzt, was zu datenspezifischen Verzerrungen führt. Wir präsentieren RankNovo, das erste Deep-Reranking-Framework, das die De-novo-Peptidsequenzierung durch die Nutzung der komplementären Stärken mehrerer Sequenzierungsmodelle verbessert. RankNovo verwendet einen listenbasierten Reranking-Ansatz, modelliert Kandidatenpeptide als multiple Sequenzalignments und nutzt axiale Aufmerksamkeit, um informative Merkmale über die Kandidaten hinweg zu extrahieren. Zusätzlich führen wir zwei neue Metriken ein, PMD (Peptide Mass Deviation) und RMD (Residual Mass Deviation), die eine präzise Überwachung ermöglichen, indem sie Massenunterschiede zwischen Peptiden sowohl auf Sequenz- als auch auf Restebene quantifizieren. Umfangreiche Experimente zeigen, dass RankNovo nicht nur die Basismodelle, die zur Generierung von Trainingskandidaten für das Reranking-Pre-Training verwendet werden, übertrifft, sondern auch einen neuen State-of-the-Art-Benchmark setzt. Darüber hinaus zeigt RankNovo eine starke Zero-Shot-Generalisierung auf ungesehene Modelle, deren Generierung während des Trainings nicht exponiert war, was seine Robustheit und sein Potenzial als universelles Reranking-Framework für die Peptidsequenzierung unterstreicht. Unsere Arbeit präsentiert eine neuartige Reranking-Strategie, die bestehende Einzelmodell-Paradigmen grundlegend herausfordert und die Grenzen der präzisen De-novo-Sequenzierung erweitert. Unser Quellcode ist auf GitHub verfügbar.

English

De novo peptide sequencing is a critical task in proteomics. However, the performance of current deep learning-based methods is limited by the inherent complexity of mass spectrometry data and the heterogeneous distribution of noise signals, leading to data-specific biases. We present RankNovo, the first deep reranking framework that enhances de novo peptide sequencing by leveraging the complementary strengths of multiple sequencing models. RankNovo employs a list-wise reranking approach, modeling candidate peptides as multiple sequence alignments and utilizing axial attention to extract informative features across candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass Deviation) and RMD (residual Mass Deviation), which offer delicate supervision by quantifying mass differences between peptides at both the sequence and residue levels. Extensive experiments demonstrate that RankNovo not only surpasses its base models used to generate training candidates for reranking pre-training, but also sets a new state-of-the-art benchmark. Moreover, RankNovo exhibits strong zero-shot generalization to unseen models whose generations were not exposed during training, highlighting its robustness and potential as a universal reranking framework for peptide sequencing. Our work presents a novel reranking strategy that fundamentally challenges existing single-model paradigms and advances the frontier of accurate de novo sequencing. Our source code is provided on GitHub.

Universelle biologische Sequenz-Neubewertung zur Verbesserung der De-Novo-Peptidsequenzierung

Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing

papers.abstract

Support