ChatPaper.aiChatPaper

Универсальная переранжировка биологических последовательностей для улучшения de novo секвенирования пептидов

Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing

May 23, 2025
Авторы: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI

Аннотация

De novo секвенирование пептидов является важной задачей в протеомике. Однако производительность современных методов, основанных на глубоком обучении, ограничена присущей сложностью данных масс-спектрометрии и неоднородным распределением шумовых сигналов, что приводит к специфическим для данных смещениям. Мы представляем RankNovo — первую структуру глубокого переранжирования, которая улучшает de novo секвенирование пептидов, используя комплементарные преимущества нескольких моделей секвенирования. RankNovo применяет подход переранжирования на основе списка, моделируя кандидатные пептиды как множественные выравнивания последовательностей и используя осевое внимание для извлечения информативных признаков среди кандидатов. Кроме того, мы вводим две новые метрики — PMD (отклонение массы пептида) и RMD (остаточное отклонение массы), которые обеспечивают точный контроль, количественно оценивая различия в массе между пептидами на уровне последовательностей и остатков. Многочисленные эксперименты демонстрируют, что RankNovo не только превосходит базовые модели, используемые для генерации кандидатов для предварительного обучения переранжированию, но и устанавливает новый эталонный показатель. Более того, RankNovo демонстрирует сильную способность к обобщению в условиях zero-shot для невидимых моделей, чьи генерации не использовались во время обучения, что подчеркивает его устойчивость и потенциал в качестве универсальной структуры переранжирования для секвенирования пептидов. Наша работа представляет новую стратегию переранжирования, которая принципиально бросает вызов существующим парадигмам, основанным на одной модели, и продвигает границы точного de novo секвенирования. Исходный код доступен на GitHub.
English
De novo peptide sequencing is a critical task in proteomics. However, the performance of current deep learning-based methods is limited by the inherent complexity of mass spectrometry data and the heterogeneous distribution of noise signals, leading to data-specific biases. We present RankNovo, the first deep reranking framework that enhances de novo peptide sequencing by leveraging the complementary strengths of multiple sequencing models. RankNovo employs a list-wise reranking approach, modeling candidate peptides as multiple sequence alignments and utilizing axial attention to extract informative features across candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass Deviation) and RMD (residual Mass Deviation), which offer delicate supervision by quantifying mass differences between peptides at both the sequence and residue levels. Extensive experiments demonstrate that RankNovo not only surpasses its base models used to generate training candidates for reranking pre-training, but also sets a new state-of-the-art benchmark. Moreover, RankNovo exhibits strong zero-shot generalization to unseen models whose generations were not exposed during training, highlighting its robustness and potential as a universal reranking framework for peptide sequencing. Our work presents a novel reranking strategy that fundamentally challenges existing single-model paradigms and advances the frontier of accurate de novo sequencing. Our source code is provided on GitHub.

Summary

AI-Generated Summary

PDF02May 26, 2025