ChatPaper.aiChatPaper

MergeDNA: Kontextbewusste Genommodellierung mit dynamischer Tokenisierung durch Token-Merging

MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

November 17, 2025
papers.authors: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI

papers.abstract

Die Modellierung genomischer Sequenzen steht vor zwei ungelösten Herausforderungen: Die Informationsdichte variiert stark zwischen verschiedenen Regionen, während es keine klar definierte minimale Vokabulareinheit gibt. Bestehende Ansätze, die sich auf entweder vier primitive Basen oder unabhängig entwickelte DNA-Tokenizer stützen und naive Masked Language Modeling Vorverarbeitung verwenden, scheitern oft daran, sich an die variierenden Komplexitäten genomischer Sequenzen anzupassen. Unter Nutzung von Token-Merging-Techniken stellt diese Arbeit eine hierarchische Architektur vor, die einen dynamischen genomischen Tokenizer und latente Transformer mit kontextsensiblen Vorverarbeitungsaufgaben gemeinsam optimiert. Bezüglich der Netzwerkstrukturen chunked das Tokenisierungsmodul automatisch benachbarte Basen zu Wörtern, indem mehrere Schichten differenzierbarer Token-Merging-Blöcke mit Lokal-Fenster-Beschränkungen gestapelt werden; anschließend erfasst ein Latent Encoder den globalen Kontext dieser zusammengeführten Wörter mittels Full-Attention-Blöcken. Durch symmetrische Verwendung eines Latent Decoders und eines Local Decoders lernt MergeDNA mit zwei Vorverarbeitungsaufgaben: Merged Token Reconstruction trainiert gleichzeitig das dynamische Tokenisierungsmodul und filtert adaptive wichtige Tokens heraus, während Adaptive Masked Token Modeling das Vorhersagen dieser gefilterten Tokens lernt, um informative Inhalte zu erfassen. Umfassende Experimente zeigen, dass MergeDNA auf drei verbreiteten DNA-Benchmarks und mehreren Multi-Omics-Aufgaben mittels Fine-Tuning oder Zero-Shot-Evaluation eine überlegene Leistung erzielt und dabei typische Tokenisierungsmethoden sowie großskalige DNA-Foundation-Modelle übertrifft.
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.
PDF82December 1, 2025