Reordenamiento Universal de Secuencias Biológicas para Mejorar la Secuenciación de Novo de Péptidos
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing
May 23, 2025
Autores: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI
Resumen
La secuenciación de novo de péptidos es una tarea crítica en proteómica. Sin embargo, el rendimiento de los métodos actuales basados en aprendizaje profundo está limitado por la inherente complejidad de los datos de espectrometría de masas y la distribución heterogénea de señales de ruido, lo que genera sesgos específicos de los datos. Presentamos RankNovo, el primer marco de reranking profundo que mejora la secuenciación de novo de péptidos aprovechando las fortalezas complementarias de múltiples modelos de secuenciación. RankNovo emplea un enfoque de reranking basado en listas, modelando péptidos candidatos como alineamientos múltiples de secuencias y utilizando atención axial para extraer características informativas entre los candidatos. Además, introducimos dos nuevas métricas, PMD (Desviación de Masa del Péptido) y RMD (Desviación de Masa Residual), que ofrecen una supervisión precisa al cuantificar las diferencias de masa entre péptidos tanto a nivel de secuencia como de residuo. Experimentos exhaustivos demuestran que RankNovo no solo supera a sus modelos base utilizados para generar candidatos de entrenamiento para el preranking, sino que también establece un nuevo estado del arte. Además, RankNovo exhibe una fuerte generalización zero-shot hacia modelos no vistos cuyas generaciones no fueron expuestas durante el entrenamiento, destacando su robustez y potencial como un marco universal de reranking para la secuenciación de péptidos. Nuestro trabajo presenta una estrategia novedosa de reranking que desafía fundamentalmente los paradigmas existentes de modelos únicos y avanza la frontera de la secuenciación de novo precisa. Nuestro código fuente está disponible en GitHub.
English
De novo peptide sequencing is a critical task in proteomics. However, the
performance of current deep learning-based methods is limited by the inherent
complexity of mass spectrometry data and the heterogeneous distribution of
noise signals, leading to data-specific biases. We present RankNovo, the first
deep reranking framework that enhances de novo peptide sequencing by leveraging
the complementary strengths of multiple sequencing models. RankNovo employs a
list-wise reranking approach, modeling candidate peptides as multiple sequence
alignments and utilizing axial attention to extract informative features across
candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass
Deviation) and RMD (residual Mass Deviation), which offer delicate supervision
by quantifying mass differences between peptides at both the sequence and
residue levels. Extensive experiments demonstrate that RankNovo not only
surpasses its base models used to generate training candidates for reranking
pre-training, but also sets a new state-of-the-art benchmark. Moreover,
RankNovo exhibits strong zero-shot generalization to unseen models whose
generations were not exposed during training, highlighting its robustness and
potential as a universal reranking framework for peptide sequencing. Our work
presents a novel reranking strategy that fundamentally challenges existing
single-model paradigms and advances the frontier of accurate de novo
sequencing. Our source code is provided on GitHub.Summary
AI-Generated Summary