Fragmentación Dinámica para el Modelado Jerárquico de Secuencias de Extremo a Extremo
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
July 10, 2025
Autores: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI
Resumen
A pesar del progreso increíble en los modelos de lenguaje (LMs) en los últimos años, en gran parte resultado de alejarse de modelos especializados diseñados para tareas específicas hacia modelos generales basados en arquitecturas potentes (por ejemplo, el Transformer) que aprenden todo a partir de datos brutos, los pasos de preprocesamiento como la tokenización siguen siendo una barrera para los verdaderos modelos de base de extremo a extremo. Introducimos una colección de nuevas técnicas que permiten un mecanismo de fragmentación dinámica que aprende automáticamente estrategias de segmentación dependientes del contenido y del contexto, aprendidas conjuntamente con el resto del modelo. Incorporar esto en una red jerárquica explícita (H-Net) permite reemplazar la pipeline (implícitamente jerárquica) de tokenización-LM-detokenización con un único modelo aprendido completamente de extremo a extremo. Cuando se igualan en términos de cómputo y datos, una H-Net con una etapa de jerarquía que opera a nivel de byte supera a un modelo de lenguaje Transformer fuerte que opera sobre tokens BPE. Iterar la jerarquía en múltiples etapas aumenta aún más su rendimiento al modelar múltiples niveles de abstracción, demostrando un escalamiento significativamente mejor con los datos y equiparando a un Transformer basado en tokens del doble de su tamaño. Las H-Nets preentrenadas en inglés muestran una robustez a nivel de carácter significativamente mayor y aprenden cualitativamente estrategias de fragmentación dependientes de los datos sin heurísticas ni supervisión explícita. Finalmente, la mejora de la H-Net sobre las pipelines tokenizadas se incrementa aún más en lenguajes y modalidades con heurísticas de tokenización más débiles, como el chino y el código, o secuencias de ADN (casi 4 veces más eficiencia en datos que las líneas base), mostrando el potencial de los verdaderos modelos de extremo a extremo que aprenden y escalan mejor a partir de datos no procesados.
English
Despite incredible progress in language models (LMs) in recent years, largely
resulting from moving away from specialized models designed for specific tasks
to general models based on powerful architectures (e.g. the Transformer) that
learn everything from raw data, pre-processing steps such as tokenization
remain a barrier to true end-to-end foundation models. We introduce a
collection of new techniques that enable a dynamic chunking mechanism which
automatically learns content -- and context -- dependent segmentation
strategies learned jointly with the rest of the model. Incorporating this into
an explicit hierarchical network (H-Net) allows replacing the (implicitly
hierarchical) tokenization-LM-detokenization pipeline with a single model
learned fully end-to-end. When compute- and data- matched, an H-Net with one
stage of hierarchy operating at the byte level outperforms a strong Transformer
language model operating over BPE tokens. Iterating the hierarchy to multiple
stages further increases its performance by modeling multiple levels of
abstraction, demonstrating significantly better scaling with data and matching
a token-based Transformer of twice its size. H-Nets pretrained on English show
significantly increased character-level robustness, and qualitatively learn
meaningful data-dependent chunking strategies without any heuristics or
explicit supervision. Finally, the H-Net's improvement over tokenized pipelines
is further increased in languages and modalities with weaker tokenization
heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement
in data efficiency over baselines), showing the potential of true end-to-end
models that learn and scale better from unprocessed data.