ChatPaper.aiChatPaper

Universele Herrangschikking van Biologische Sequenties voor Verbeterde De Novo Peptide Sequentiëring

Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing

May 23, 2025
Auteurs: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI

Samenvatting

De novo peptide sequencing is een cruciale taak in de proteomica. De prestaties van huidige deep learning-gebaseerde methoden worden echter beperkt door de inherente complexiteit van massaspectrometriegegevens en de heterogene verdeling van ruissignalen, wat leidt tot data-specifieke vooroordelen. Wij presenteren RankNovo, het eerste deep reranking-framework dat de novo peptide sequencing verbetert door gebruik te maken van de complementaire sterke punten van meerdere sequencingmodellen. RankNovo maakt gebruik van een lijstgewijze herrangschikking, waarbij kandidaat-peptides worden gemodelleerd als meerdere sequentie-uitlijningen en axiale aandacht wordt gebruikt om informatieve kenmerken over kandidaten te extraheren. Daarnaast introduceren we twee nieuwe metrieken, PMD (Peptide Mass Deviation) en RMD (Residual Mass Deviation), die een verfijnde supervisie bieden door massaverschillen tussen peptides op zowel sequentie- als residuniveau te kwantificeren. Uitgebreide experimenten tonen aan dat RankNovo niet alleen zijn basismodellen overtreft die worden gebruikt om trainingskandidaten te genereren voor herrangschikkingspre-training, maar ook een nieuwe state-of-the-art benchmark vestigt. Bovendien vertoont RankNovo een sterke zero-shot generalisatie naar onbekende modellen waarvan de generaties niet tijdens de training zijn blootgesteld, wat de robuustheid en het potentieel als een universeel herrangschikkingsframework voor peptide sequencing benadrukt. Ons werk presenteert een nieuwe herrangschikkingsstrategie die de bestaande enkelmodelparadigma's fundamenteel uitdaagt en de grens van nauwkeurige de novo sequencing verlegt. Onze broncode is beschikbaar op GitHub.
English
De novo peptide sequencing is a critical task in proteomics. However, the performance of current deep learning-based methods is limited by the inherent complexity of mass spectrometry data and the heterogeneous distribution of noise signals, leading to data-specific biases. We present RankNovo, the first deep reranking framework that enhances de novo peptide sequencing by leveraging the complementary strengths of multiple sequencing models. RankNovo employs a list-wise reranking approach, modeling candidate peptides as multiple sequence alignments and utilizing axial attention to extract informative features across candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass Deviation) and RMD (residual Mass Deviation), which offer delicate supervision by quantifying mass differences between peptides at both the sequence and residue levels. Extensive experiments demonstrate that RankNovo not only surpasses its base models used to generate training candidates for reranking pre-training, but also sets a new state-of-the-art benchmark. Moreover, RankNovo exhibits strong zero-shot generalization to unseen models whose generations were not exposed during training, highlighting its robustness and potential as a universal reranking framework for peptide sequencing. Our work presents a novel reranking strategy that fundamentally challenges existing single-model paradigms and advances the frontier of accurate de novo sequencing. Our source code is provided on GitHub.
PDF02May 26, 2025