ChatPaper.aiChatPaper

Riorganizzazione Universale delle Sequenze Biologiche per un Miglioramento del Sequenziamento De Novo dei Peptidi

Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing

May 23, 2025
Autori: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI

Abstract

Il sequenziamento de novo dei peptidi è un compito cruciale in proteomica. Tuttavia, le prestazioni degli attuali metodi basati sul deep learning sono limitate dalla complessità intrinseca dei dati di spettrometria di massa e dalla distribuzione eterogenea dei segnali di rumore, portando a bias specifici dei dati. Presentiamo RankNovo, il primo framework di deep reranking che migliora il sequenziamento de novo dei peptidi sfruttando i punti di forza complementari di modelli di sequenziamento multipli. RankNovo utilizza un approccio di reranking list-wise, modellando i peptidi candidati come allineamenti multipli di sequenze e sfruttando l'attenzione assiale per estrarre caratteristiche informative tra i candidati. Inoltre, introduciamo due nuove metriche, PMD (Peptide Mass Deviation) e RMD (Residual Mass Deviation), che offrono una supervisione precisa quantificando le differenze di massa tra i peptidi sia a livello di sequenza che di residuo. Esperimenti estensivi dimostrano che RankNovo non solo supera i modelli di base utilizzati per generare i candidati di training per il pre-training di reranking, ma stabilisce anche un nuovo benchmark state-of-the-art. Inoltre, RankNovo mostra una forte generalizzazione zero-shot verso modelli non visti le cui generazioni non sono state esposte durante il training, evidenziando la sua robustezza e il potenziale come framework universale di reranking per il sequenziamento dei peptidi. Il nostro lavoro presenta una nuova strategia di reranking che sfida fondamentalmente i paradigmi esistenti basati su singoli modelli e avanza la frontiera del sequenziamento de novo accurato. Il nostro codice sorgente è disponibile su GitHub.
English
De novo peptide sequencing is a critical task in proteomics. However, the performance of current deep learning-based methods is limited by the inherent complexity of mass spectrometry data and the heterogeneous distribution of noise signals, leading to data-specific biases. We present RankNovo, the first deep reranking framework that enhances de novo peptide sequencing by leveraging the complementary strengths of multiple sequencing models. RankNovo employs a list-wise reranking approach, modeling candidate peptides as multiple sequence alignments and utilizing axial attention to extract informative features across candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass Deviation) and RMD (residual Mass Deviation), which offer delicate supervision by quantifying mass differences between peptides at both the sequence and residue levels. Extensive experiments demonstrate that RankNovo not only surpasses its base models used to generate training candidates for reranking pre-training, but also sets a new state-of-the-art benchmark. Moreover, RankNovo exhibits strong zero-shot generalization to unseen models whose generations were not exposed during training, highlighting its robustness and potential as a universal reranking framework for peptide sequencing. Our work presents a novel reranking strategy that fundamentally challenges existing single-model paradigms and advances the frontier of accurate de novo sequencing. Our source code is provided on GitHub.
PDF02May 26, 2025