Reclassificação Universal de Sequências Biológicas para Melhorar o Sequenciamento De Novo de Peptídeos

Resumo

A sequenciação de novo de peptídeos é uma tarefa crítica em proteômica. No entanto, o desempenho dos métodos atuais baseados em aprendizado profundo é limitado pela complexidade inerente dos dados de espectrometria de massa e pela distribuição heterogênea de sinais de ruído, resultando em vieses específicos dos dados. Apresentamos o RankNovo, o primeiro framework de reclassificação profunda que aprimora a sequenciação de novo de peptídeos ao aproveitar os pontos fortes complementares de múltiplos modelos de sequenciação. O RankNovo emprega uma abordagem de reclassificação baseada em listas, modelando peptídeos candidatos como alinhamentos de múltiplas sequências e utilizando atenção axial para extrair características informativas entre os candidatos. Além disso, introduzimos duas novas métricas, PMD (Desvio de Massa de Peptídeo) e RMD (Desvio de Massa Residual), que oferecem supervisão refinada ao quantificar as diferenças de massa entre peptídeos tanto no nível da sequência quanto no nível dos resíduos. Experimentos extensivos demonstram que o RankNovo não apenas supera seus modelos base usados para gerar candidatos de treinamento para pré-treinamento de reclassificação, mas também estabelece um novo benchmark de estado da arte. Além disso, o RankNovo exibe forte generalização zero-shot para modelos não vistos cujas gerações não foram expostas durante o treinamento, destacando sua robustez e potencial como um framework universal de reclassificação para sequenciação de peptídeos. Nosso trabalho apresenta uma nova estratégia de reclassificação que desafia fundamentalmente os paradigmas existentes de modelo único e avança a fronteira da sequenciação de novo precisa. Nosso código-fonte está disponível no GitHub.

English

De novo peptide sequencing is a critical task in proteomics. However, the performance of current deep learning-based methods is limited by the inherent complexity of mass spectrometry data and the heterogeneous distribution of noise signals, leading to data-specific biases. We present RankNovo, the first deep reranking framework that enhances de novo peptide sequencing by leveraging the complementary strengths of multiple sequencing models. RankNovo employs a list-wise reranking approach, modeling candidate peptides as multiple sequence alignments and utilizing axial attention to extract informative features across candidates. Additionally, we introduce two new metrics, PMD (Peptide Mass Deviation) and RMD (residual Mass Deviation), which offer delicate supervision by quantifying mass differences between peptides at both the sequence and residue levels. Extensive experiments demonstrate that RankNovo not only surpasses its base models used to generate training candidates for reranking pre-training, but also sets a new state-of-the-art benchmark. Moreover, RankNovo exhibits strong zero-shot generalization to unseen models whose generations were not exposed during training, highlighting its robustness and potential as a universal reranking framework for peptide sequencing. Our work presents a novel reranking strategy that fundamentally challenges existing single-model paradigms and advances the frontier of accurate de novo sequencing. Our source code is provided on GitHub.

Reclassificação Universal de Sequências Biológicas para Melhorar o Sequenciamento De Novo de Peptídeos

Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing

Resumo

Support