ChatPaper.aiChatPaper

MergeDNA: Modelado Genómico Consciente del Contexto con Tokenización Dinámica mediante Fusión de Tokens

MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

November 17, 2025
Autores: Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li
cs.AI

Resumen

La modelización de secuencias genómicas enfrenta dos desafíos no resueltos: la densidad de información varía ampliamente en diferentes regiones, mientras que no existe una unidad de vocabulario mínima claramente definida. Al depender de las cuatro bases primitivas o de tokenizadores de ADN diseñados independientemente, los enfoques existentes con pre-entrenamiento basado en modelado de lenguaje enmascarado ingenuo a menudo fallan en adaptarse a las complejidades variables de las secuencias genómicas. Aprovechando las técnicas de Fusión de Tokens, este artículo introduce una arquitectura jerárquica que optimiza conjuntamente un tokenizador genómico dinámico y Transformers latentes con tareas de pre-entrenamiento conscientes del contexto. En cuanto a las estructuras de red, el módulo de tokenización fragmenta automáticamente las bases adyacentes en palabras apilando múltiples capas de bloques diferenciables de fusión de tokens con restricciones de ventana local; luego, un Codificador Latente captura el contexto global de estas palabras fusionadas mediante bloques de atención completa. Empleando simétricamente un Decodificador Latente y un Decodificador Local, MergeDNA aprende con dos tareas de pre-entrenamiento: la Reconstrucción de Tokens Fusionados entrena simultáneamente el módulo de tokenización dinámica y filtra adaptativamente tokens importantes, mientras que el Modelado Adaptativo de Tokens Enmascarados aprende a predecir estos tokens filtrados para capturar contenidos informativos. Experimentos exhaustivos demuestran que MergeDNA logra un rendimiento superior en tres benchmarks populares de ADN y varias tareas multi-ómicas con evaluación fine-tuning o zero-shot, superando a métodos de tokenización típicos y a modelos fundacionales de ADN a gran escala.
English
Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly optimizes a dynamic genomic tokenizer and latent Transformers with context-aware pre-training tasks. As for network structures, the tokenization module automatically chunks adjacent bases into words by stacking multiple layers of the differentiable token merging blocks with local-window constraints, then a Latent Encoder captures the global context of these merged words by full-attention blocks. Symmetrically employing a Latent Decoder and a Local Decoder, MergeDNA learns with two pre-training tasks: Merged Token Reconstruction simultaneously trains the dynamic tokenization module and adaptively filters important tokens, while Adaptive Masked Token Modeling learns to predict these filtered tokens to capture informative contents. Extensive experiments show that MergeDNA achieves superior performance on three popular DNA benchmarks and several multi-omics tasks with fine-tuning or zero-shot evaluation, outperforming typical tokenization methods and large-scale DNA foundation models.
PDF82December 1, 2025