Dynamisch Chunken voor End-to-End Hiërarchische Sequentiemodellering
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
July 10, 2025
Auteurs: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI
Samenvatting
Ondanks de ongelooflijke vooruitgang in taalmodelen (LMs) in recente jaren, grotendeels het gevolg van de overstap van gespecialiseerde modellen die voor specifieke taken zijn ontworpen naar algemene modellen gebaseerd op krachtige architecturen (bijv. de Transformer) die alles leren uit ruwe data, blijven voorbewerkingsstappen zoals tokenisatie een barrière voor echte end-to-end foundation modellen. We introduceren een verzameling nieuwe technieken die een dynamisch chunking-mechanisme mogelijk maken, dat automatisch inhouds- en contextafhankelijke segmentatiestrategieën leert, gezamenlijk met de rest van het model. Door dit te integreren in een expliciet hiërarchisch netwerk (H-Net) kan de (impliciet hiërarchische) tokenisatie-LM-detokenisatie-pijplijn worden vervangen door een enkel model dat volledig end-to-end wordt geleerd. Wanneer rekencapaciteit en data worden afgestemd, presteert een H-Net met één hiërarchiestap op byte-niveau beter dan een sterk Transformer-taalmodel dat werkt met BPE-tokens. Het herhalen van de hiërarchie naar meerdere stappen verhoogt de prestaties verder door meerdere abstractieniveaus te modelleren, wat een aanzienlijk betere schaalbaarheid met data aantoont en een token-gebaseerde Transformer van tweemaal zijn grootte evenaart. H-Nets die vooraf zijn getraind op Engels tonen een aanzienlijk verhoogde robuustheid op karakterniveau, en leren kwalitatief zinvolle data-afhankelijke chunking-strategieën zonder heuristieken of expliciete supervisie. Ten slotte wordt de verbetering van het H-Net ten opzichte van getokeniseerde pijplijnen verder vergroot in talen en modaliteiten met zwakkere tokenisatieheuristieken, zoals Chinees en code, of DNA-sequenties (bijna 4x verbetering in data-efficiëntie ten opzichte van baselines), wat het potentieel toont van echte end-to-end modellen die beter leren en schalen vanuit onbewerkte data.
English
Despite incredible progress in language models (LMs) in recent years, largely
resulting from moving away from specialized models designed for specific tasks
to general models based on powerful architectures (e.g. the Transformer) that
learn everything from raw data, pre-processing steps such as tokenization
remain a barrier to true end-to-end foundation models. We introduce a
collection of new techniques that enable a dynamic chunking mechanism which
automatically learns content -- and context -- dependent segmentation
strategies learned jointly with the rest of the model. Incorporating this into
an explicit hierarchical network (H-Net) allows replacing the (implicitly
hierarchical) tokenization-LM-detokenization pipeline with a single model
learned fully end-to-end. When compute- and data- matched, an H-Net with one
stage of hierarchy operating at the byte level outperforms a strong Transformer
language model operating over BPE tokens. Iterating the hierarchy to multiple
stages further increases its performance by modeling multiple levels of
abstraction, demonstrating significantly better scaling with data and matching
a token-based Transformer of twice its size. H-Nets pretrained on English show
significantly increased character-level robustness, and qualitatively learn
meaningful data-dependent chunking strategies without any heuristics or
explicit supervision. Finally, the H-Net's improvement over tokenized pipelines
is further increased in languages and modalities with weaker tokenization
heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement
in data efficiency over baselines), showing the potential of true end-to-end
models that learn and scale better from unprocessed data.