Reclassificação Universal de Sequências Biológicas para Melhorar o Sequenciamento De Novo de Peptídeos
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing
May 23, 2025
Autores: Zijie Qiu, Jiaqi Wei, Xiang Zhang, Sheng Xu, Kai Zou, Zhi Jin, Zhiqiang Gao, Nanqing Dong, Siqi Sun
cs.AI
Resumo
A sequenciação de novo de peptídeos é uma tarefa crítica em proteômica. No entanto, o desempenho dos métodos atuais baseados em aprendizado profundo é limitado pela complexidade inerente dos dados de espectrometria de massa e pela distribuição heterogênea de sinais de ruído, resultando em vieses específicos dos dados. Apresentamos o RankNovo, o primeiro framework de reclassificação profunda que aprimora a sequenciação de novo de peptídeos ao aproveitar os pontos fortes complementares de múltiplos modelos de sequenciação. O RankNovo emprega uma abordagem de reclassificação baseada em listas, modelando peptídeos candidatos como alinhamentos de múltiplas sequências e utilizando atenção axial para extrair características informativas entre os candidatos. Além disso, introduzimos duas novas métricas, PMD (Desvio de Massa de Peptídeo) e RMD (Desvio de Massa Residual), que oferecem supervisão refinada ao quantificar as diferenças de massa entre peptídeos tanto no nível da sequência quanto no nível dos resíduos. Experimentos extensivos demonstram que o RankNovo não apenas supera seus modelos base usados para gerar candidatos de treinamento para pré-treinamento de reclassificação, mas também estabelece um novo benchmark de estado da arte. Além disso, o RankNovo exibe forte generalização zero-shot para modelos não vistos cujas gerações não foram expostas durante o treinamento, destacando sua robustez e potencial como um framework universal de reclassificação para sequenciação de peptídeos. Nosso trabalho apresenta uma nova estratégia de reclassificação que desafia fundamentalmente os paradigmas existentes de modelo único e avança a fronteira da sequenciação de novo precisa. Nosso código-fonte está disponível no GitHub.
English
De novo peptide sequencing is a critical task in proteomics. However, the
performance of current deep learning-based methods is limited by the inherent
complexity of mass spectrometry data and the heterogeneous distribution of
noise signals, leading to data-specific biases. We present RankNovo, the first
deep reranking framework that enhances de novo peptide sequencing by leveraging
the complementary strengths of multiple sequencing models. RankNovo employs a
list-wise reranking approach, modeling candidate peptides as multiple sequence
alignments and utilizing axial attention to extract informative features across
candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass
Deviation) and RMD (residual Mass Deviation), which offer delicate supervision
by quantifying mass differences between peptides at both the sequence and
residue levels. Extensive experiments demonstrate that RankNovo not only
surpasses its base models used to generate training candidates for reranking
pre-training, but also sets a new state-of-the-art benchmark. Moreover,
RankNovo exhibits strong zero-shot generalization to unseen models whose
generations were not exposed during training, highlighting its robustness and
potential as a universal reranking framework for peptide sequencing. Our work
presents a novel reranking strategy that fundamentally challenges existing
single-model paradigms and advances the frontier of accurate de novo
sequencing. Our source code is provided on GitHub.