ChatPaper.aiChatPaper

Segmentation Dynamique pour la Modélisation Hiérarchique de Séquences de Bout en Bout

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

July 10, 2025
papers.authors: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI

papers.abstract

Malgré des progrès impressionnants dans les modèles de langage (LMs) ces dernières années, largement dus à l'abandon de modèles spécialisés conçus pour des tâches spécifiques au profit de modèles généraux basés sur des architectures puissantes (par exemple, le Transformer) qui apprennent tout à partir de données brutes, les étapes de prétraitement telles que la tokenisation restent un obstacle à la réalisation de véritables modèles de fond end-to-end. Nous présentons une collection de nouvelles techniques qui permettent un mécanisme de segmentation dynamique apprenant automatiquement des stratégies de segmentation dépendantes du contenu et du contexte, apprises conjointement avec le reste du modèle. L'intégration de ce mécanisme dans un réseau hiérarchique explicite (H-Net) permet de remplacer le pipeline (implicitement hiérarchique) de tokenisation-LM-détokenisation par un modèle unique appris entièrement end-to-end. Lorsque les ressources de calcul et les données sont équivalentes, un H-Net avec un niveau de hiérarchie opérant au niveau des octets surpasse un modèle de langage Transformer robuste fonctionnant sur des tokens BPE. L'itération de la hiérarchie à plusieurs niveaux améliore encore ses performances en modélisant plusieurs niveaux d'abstraction, démontrant une bien meilleure capacité à s'adapter à l'augmentation des données et égalant un Transformer basé sur des tokens de taille double. Les H-Nets pré-entraînés sur l'anglais montrent une robustesse accrue au niveau des caractères et apprennent qualitativement des stratégies de segmentation dépendantes des données sans heuristiques ni supervision explicite. Enfin, l'amélioration apportée par le H-Net par rapport aux pipelines tokenisés est encore plus marquée dans les langues et modalités avec des heuristiques de tokenisation moins efficaces, comme le chinois, le code ou les séquences d'ADN (une amélioration de près de 4x en efficacité des données par rapport aux modèles de référence), montrant le potentiel des véritables modèles end-to-end qui apprennent et s'adaptent mieux à partir de données non traitées.
English
Despite incredible progress in language models (LMs) in recent years, largely resulting from moving away from specialized models designed for specific tasks to general models based on powerful architectures (e.g. the Transformer) that learn everything from raw data, pre-processing steps such as tokenization remain a barrier to true end-to-end foundation models. We introduce a collection of new techniques that enable a dynamic chunking mechanism which automatically learns content -- and context -- dependent segmentation strategies learned jointly with the rest of the model. Incorporating this into an explicit hierarchical network (H-Net) allows replacing the (implicitly hierarchical) tokenization-LM-detokenization pipeline with a single model learned fully end-to-end. When compute- and data- matched, an H-Net with one stage of hierarchy operating at the byte level outperforms a strong Transformer language model operating over BPE tokens. Iterating the hierarchy to multiple stages further increases its performance by modeling multiple levels of abstraction, demonstrating significantly better scaling with data and matching a token-based Transformer of twice its size. H-Nets pretrained on English show significantly increased character-level robustness, and qualitatively learn meaningful data-dependent chunking strategies without any heuristics or explicit supervision. Finally, the H-Net's improvement over tokenized pipelines is further increased in languages and modalities with weaker tokenization heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement in data efficiency over baselines), showing the potential of true end-to-end models that learn and scale better from unprocessed data.
PDF71July 11, 2025