MergeDNA: Modelagem Genômica Consciente do Contexto com Tokenização Dinâmica através da Fusão de Tokens

Resumo

A modelagem de sequências genômicas enfrenta dois desafios não resolvidos: a densidade de informação varia amplamente em diferentes regiões, enquanto não há uma unidade de vocabulário mínima claramente definida. Contando com as quatro bases primitivas ou com tokenizadores de DNA projetados independentemente, as abordagens existentes que utilizam pré-treinamento ingênuo de modelagem de linguagem mascarada frequentemente falham em se adaptar às complexidades variáveis das sequências genômicas. Aproveitando as técnicas de Token Merging, este artigo introduz uma arquitetura hierárquica que otimiza conjuntamente um tokenizador genômico dinâmico e Transformers latentes com tarefas de pré-treinamento conscientes do contexto. Quanto às estruturas de rede, o módulo de tokenização agrupa automaticamente bases adjacentes em palavras através do empilhamento de múltiplas camadas de blocos diferenciáveis de fusão de tokens com restrições de janela local; em seguida, um Codificador Latente captura o contexto global dessas palavras fundidas por meio de blocos de atenção completa. Empregando simetricamente um Decodificador Latente e um Decodificador Local, o MergeDNA aprende com duas tarefas de pré-treinamento: a Reconstrução de Tokens Fundidos treina simultaneamente o módulo de tokenização dinâmica e filtra adaptativamente tokens importantes, enquanto a Modelagem de Tokens Mascarados Adaptativa aprende a prever esses tokens filtrados para capturar conteúdos informativos. Experimentos extensivos mostram que o MergeDNA alcança desempenho superior em três benchmarks populares de DNA e em várias tarefas de multi-ômicas com avaliação fine-tuning ou zero-shot, superando métodos típicos de tokenização e modelos de fundação de DNA em larga escala.

English

Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.

MergeDNA: Modelagem Genômica Consciente do Contexto com Tokenização Dinâmica através da Fusão de Tokens

MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

Resumo

Support