Segmentation Dynamique pour la Modélisation Hiérarchique de Séquences de Bout en Bout
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
July 10, 2025
papers.authors: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI
papers.abstract
Malgré des progrès impressionnants dans les modèles de langage (LMs) ces dernières années, largement dus à l'abandon de modèles spécialisés conçus pour des tâches spécifiques au profit de modèles généraux basés sur des architectures puissantes (par exemple, le Transformer) qui apprennent tout à partir de données brutes, les étapes de prétraitement telles que la tokenisation restent un obstacle à la réalisation de véritables modèles de fond end-to-end. Nous présentons une collection de nouvelles techniques qui permettent un mécanisme de segmentation dynamique apprenant automatiquement des stratégies de segmentation dépendantes du contenu et du contexte, apprises conjointement avec le reste du modèle. L'intégration de ce mécanisme dans un réseau hiérarchique explicite (H-Net) permet de remplacer le pipeline (implicitement hiérarchique) de tokenisation-LM-détokenisation par un modèle unique appris entièrement end-to-end. Lorsque les ressources de calcul et les données sont équivalentes, un H-Net avec un niveau de hiérarchie opérant au niveau des octets surpasse un modèle de langage Transformer robuste fonctionnant sur des tokens BPE. L'itération de la hiérarchie à plusieurs niveaux améliore encore ses performances en modélisant plusieurs niveaux d'abstraction, démontrant une bien meilleure capacité à s'adapter à l'augmentation des données et égalant un Transformer basé sur des tokens de taille double. Les H-Nets pré-entraînés sur l'anglais montrent une robustesse accrue au niveau des caractères et apprennent qualitativement des stratégies de segmentation dépendantes des données sans heuristiques ni supervision explicite. Enfin, l'amélioration apportée par le H-Net par rapport aux pipelines tokenisés est encore plus marquée dans les langues et modalités avec des heuristiques de tokenisation moins efficaces, comme le chinois, le code ou les séquences d'ADN (une amélioration de près de 4x en efficacité des données par rapport aux modèles de référence), montrant le potentiel des véritables modèles end-to-end qui apprennent et s'adaptent mieux à partir de données non traitées.
English
Despite incredible progress in language models (LMs) in recent years, largely
resulting from moving away from specialized models designed for specific tasks
to general models based on powerful architectures (e.g. the Transformer) that
learn everything from raw data, pre-processing steps such as tokenization
remain a barrier to true end-to-end foundation models. We introduce a
collection of new techniques that enable a dynamic chunking mechanism which
automatically learns content -- and context -- dependent segmentation
strategies learned jointly with the rest of the model. Incorporating this into
an explicit hierarchical network (H-Net) allows replacing the (implicitly
hierarchical) tokenization-LM-detokenization pipeline with a single model
learned fully end-to-end. When compute- and data- matched, an H-Net with one
stage of hierarchy operating at the byte level outperforms a strong Transformer
language model operating over BPE tokens. Iterating the hierarchy to multiple
stages further increases its performance by modeling multiple levels of
abstraction, demonstrating significantly better scaling with data and matching
a token-based Transformer of twice its size. H-Nets pretrained on English show
significantly increased character-level robustness, and qualitatively learn
meaningful data-dependent chunking strategies without any heuristics or
explicit supervision. Finally, the H-Net's improvement over tokenized pipelines
is further increased in languages and modalities with weaker tokenization
heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement
in data efficiency over baselines), showing the potential of true end-to-end
models that learn and scale better from unprocessed data.