ChatPaper.aiChatPaper

MergeDNA: Contextbewuste genoommodellering met dynamische tokenisatie via tokensamenvoeging

MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

November 17, 2025
Auteurs: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI

Samenvatting

Het modelleren van genoomsequenties wordt geconfronteerd met twee onopgeloste uitdagingen: de informatiedichtheid varieert sterk tussen verschillende regio's, terwijl er geen duidelijk gedefinieerde minimale vocabulaire eenheid is. Door te vertrouwen op vier primitiewe basen of onafhankelijk ontworpen DNA-tokenizers, slagen bestaande benaderingen met naïeve gemaskeerde taalmodellering voorafgaande training er vaak niet in zich aan te passen aan de variërende complexiteit van genoomsequenties. Gebruikmakend van Token Merging-technieken introduceert dit artikel een hiërarchische architectuur die gezamenlijk een dynamische genomische tokenizer en latente Transformers optimaliseert met contextbewuste pre-trainingstaken. Wat de netwerkstructuren betreft, verdeelt de tokenisatiemodule aangrenzende basen automatisch in woorden door meerdere lagen van differentieerbare token merging-blokken met lokale vensterbeperkingen te stapelen; vervolgens vangt een Latent Encoder de globale context van deze samengevoegde woorden op via full-attention blokken. Door symmetrisch een Latent Decoder en een Local Decoder in te zetten, leert MergeDNA met twee pre-trainingstaken: Merged Token Reconstruction traint tegelijkertijd de dynamische tokenisatiemodule en filtert adaptief belangrijke tokens, terwijl Adaptive Masked Token Modeling leert om deze gefilterde tokens te voorspellen om informatieve inhoud te vangen. Uitgebreide experimenten tonen aan dat MergeDNA superieure prestaties bereikt op drie populaire DNA-referentietesten en verschillende multi-omics taken met fine-tuning of zero-shot evaluatie, waarbij het typische tokenisatiemethoden en grootschalige DNA-basismodellen overtreft.
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.
PDF82December 1, 2025