MergeDNA: Modellazione Genomica Consapevole del Contesto con Tokenizzazione Dinamica tramite Fusione di Token
MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging
November 17, 2025
Autori: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI
Abstract
La modellazione di sequenze genomiche affronta due sfide irrisolte: la densità informativa varia ampiamente tra regioni diverse, mentre non esiste un'unità lessicale minima chiaramente definita. Basandosi sulle quattro basi primordiali o su tokenizzatori di DNA progettati indipendentemente, gli approcci esistenti con pre-addestramento basato su modelli linguistici mascherati ingenuo spesso falliscono nell'adattarsi alle complessità variabili delle sequenze genomiche. Sfruttando le tecniche di Token Merging, questo articolo introduce un'architettura gerarchica che ottimizza congiuntamente un tokenizzatore genomico dinamico e Transformer latenti con compiti di pre-addestramento contestuale. Per quanto riguarda le strutture di rete, il modulo di tokenizzazione suddivide automaticamente le basi adiacenti in parole impilando più strati di blocchi differenziabili di fusione di token con vincoli a finestra locale, mentre un Encoder Latente cattura il contesto globale di queste parole fuse attraverso blocchi di attenzione completa. Impiegando simmetricamente un Decodificatore Latente e un Decodificatore Locale, MergeDNA apprende con due compiti di pre-addestramento: la Ricostruzione di Token Fusi addestra simultaneamente il modulo di tokenizzazione dinamica e filtra adattativamente i token importanti, mentre la Modellazione Adattiva di Token Mascherati apprende a predire questi token filtrati per catturare contenuti informativi. Esperimenti estensivi dimostrano che MergeDNA raggiunge prestazioni superiori su tre benchmark di DNA popolari e diverse attività multi-omiche con valutazione fine-tuning o zero-shot, superando i metodi di tokenizzazione tipici e i modelli fondazionali di DNA su larga scala.
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.