Universelle biologische Sequenz-Neubewertung zur Verbesserung der De-Novo-Peptidsequenzierung
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing
May 23, 2025
Autoren: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI
Zusammenfassung
Die De-novo-Peptidsequenzierung ist eine entscheidende Aufgabe in der Proteomik. Die Leistung aktueller Deep-Learning-basierter Methoden wird jedoch durch die inhärente Komplexität von Massenspektrometriedaten und die heterogene Verteilung von Rauschsignalen begrenzt, was zu datenspezifischen Verzerrungen führt. Wir präsentieren RankNovo, das erste Deep-Reranking-Framework, das die De-novo-Peptidsequenzierung durch die Nutzung der komplementären Stärken mehrerer Sequenzierungsmodelle verbessert. RankNovo verwendet einen listenbasierten Reranking-Ansatz, modelliert Kandidatenpeptide als multiple Sequenzalignments und nutzt axiale Aufmerksamkeit, um informative Merkmale über die Kandidaten hinweg zu extrahieren. Zusätzlich führen wir zwei neue Metriken ein, PMD (Peptide Mass Deviation) und RMD (Residual Mass Deviation), die eine präzise Überwachung ermöglichen, indem sie Massenunterschiede zwischen Peptiden sowohl auf Sequenz- als auch auf Restebene quantifizieren. Umfangreiche Experimente zeigen, dass RankNovo nicht nur die Basismodelle, die zur Generierung von Trainingskandidaten für das Reranking-Pre-Training verwendet werden, übertrifft, sondern auch einen neuen State-of-the-Art-Benchmark setzt. Darüber hinaus zeigt RankNovo eine starke Zero-Shot-Generalisierung auf ungesehene Modelle, deren Generierung während des Trainings nicht exponiert war, was seine Robustheit und sein Potenzial als universelles Reranking-Framework für die Peptidsequenzierung unterstreicht. Unsere Arbeit präsentiert eine neuartige Reranking-Strategie, die bestehende Einzelmodell-Paradigmen grundlegend herausfordert und die Grenzen der präzisen De-novo-Sequenzierung erweitert. Unser Quellcode ist auf GitHub verfügbar.
English
De novo peptide sequencing is a critical task in proteomics. However, the
performance of current deep learning-based methods is limited by the inherent
complexity of mass spectrometry data and the heterogeneous distribution of
noise signals, leading to data-specific biases. We present RankNovo, the first
deep reranking framework that enhances de novo peptide sequencing by leveraging
the complementary strengths of multiple sequencing models. RankNovo employs a
list-wise reranking approach, modeling candidate peptides as multiple sequence
alignments and utilizing axial attention to extract informative features across
candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass
Deviation) and RMD (residual Mass Deviation), which offer delicate supervision
by quantifying mass differences between peptides at both the sequence and
residue levels. Extensive experiments demonstrate that RankNovo not only
surpasses its base models used to generate training candidates for reranking
pre-training, but also sets a new state-of-the-art benchmark. Moreover,
RankNovo exhibits strong zero-shot generalization to unseen models whose
generations were not exposed during training, highlighting its robustness and
potential as a universal reranking framework for peptide sequencing. Our work
presents a novel reranking strategy that fundamentally challenges existing
single-model paradigms and advances the frontier of accurate de novo
sequencing. Our source code is provided on GitHub.Summary
AI-Generated Summary