MergeDNA : Modélisation contextuelle du génome avec tokenisation dynamique par fusion de tokens
MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging
November 17, 2025
papers.authors: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI
papers.abstract
La modélisation des séquences génomiques se heurte à deux défis non résolus : la densité informationnelle varie considérablement selon les régions, tandis qu'aucune unité de vocabulaire minimale n'est clairement définie. En s'appuyant soit sur les quatre bases primitives, soit sur des tokeniseurs d'ADN conçus indépendamment, les approches existantes utilisant un pré-entraînement naïf par modélisation de langage masqué échouent souvent à s'adapter aux complexités variables des séquences génomiques. Tirant parti des techniques de fusion de tokens, cet article présente une architecture hiérarchique qui optimise conjointement un tokeniseur génomique dynamique et des Transformers latents grâce à des tâches de pré-entraînement sensibles au contexte. Concernant les structures réseau, le module de tokenisation segmente automatiquement les bases adjacentes en mots par empilement de multiples couches de blocs de fusion de tokens différentiables avec contraintes de fenêtre locale, puis un Encodeur Latent capture le contexte global de ces mots fusionnés via des blocs à attention complète. En employant symétriquement un Décodeur Latent et un Décodeur Local, MergeDNA s'entraîne avec deux tâches de pré-entraînement : la Reconstruction de Tokens Fusionnés forme simultanément le module de tokenisation dynamique et filtre adaptativement les tokens importants, tandis que la Modélisation Adaptative de Tokens Masqués apprend à prédire ces tokens filtrés pour capturer les contenus informatifs. Des expériences approfondies montrent que MergeDNA obtient des performances supérieures sur trois benchmarks d'ADN populaires et plusieurs tâches multi-omiques avec évaluation fine-tuning ou zero-shot, surpassant les méthodes de tokenisation typiques et les modèles fondationnels d'ADN à grande échelle.
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.