ChatPaper.aiChatPaper

Dynamisch Chunken voor End-to-End Hiërarchische Sequentiemodellering

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

July 10, 2025
Auteurs: Sukjun Hwang, Brandon Wang, Albert Gu
cs.AI

Samenvatting

Ondanks de ongelooflijke vooruitgang in taalmodelen (LMs) in recente jaren, grotendeels het gevolg van de overstap van gespecialiseerde modellen die voor specifieke taken zijn ontworpen naar algemene modellen gebaseerd op krachtige architecturen (bijv. de Transformer) die alles leren uit ruwe data, blijven voorbewerkingsstappen zoals tokenisatie een barrière voor echte end-to-end foundation modellen. We introduceren een verzameling nieuwe technieken die een dynamisch chunking-mechanisme mogelijk maken, dat automatisch inhouds- en contextafhankelijke segmentatiestrategieën leert, gezamenlijk met de rest van het model. Door dit te integreren in een expliciet hiërarchisch netwerk (H-Net) kan de (impliciet hiërarchische) tokenisatie-LM-detokenisatie-pijplijn worden vervangen door een enkel model dat volledig end-to-end wordt geleerd. Wanneer rekencapaciteit en data worden afgestemd, presteert een H-Net met één hiërarchiestap op byte-niveau beter dan een sterk Transformer-taalmodel dat werkt met BPE-tokens. Het herhalen van de hiërarchie naar meerdere stappen verhoogt de prestaties verder door meerdere abstractieniveaus te modelleren, wat een aanzienlijk betere schaalbaarheid met data aantoont en een token-gebaseerde Transformer van tweemaal zijn grootte evenaart. H-Nets die vooraf zijn getraind op Engels tonen een aanzienlijk verhoogde robuustheid op karakterniveau, en leren kwalitatief zinvolle data-afhankelijke chunking-strategieën zonder heuristieken of expliciete supervisie. Ten slotte wordt de verbetering van het H-Net ten opzichte van getokeniseerde pijplijnen verder vergroot in talen en modaliteiten met zwakkere tokenisatieheuristieken, zoals Chinees en code, of DNA-sequenties (bijna 4x verbetering in data-efficiëntie ten opzichte van baselines), wat het potentieel toont van echte end-to-end modellen die beter leren en schalen vanuit onbewerkte data.
English
Despite incredible progress in language models (LMs) in recent years, largely resulting from moving away from specialized models designed for specific tasks to general models based on powerful architectures (e.g. the Transformer) that learn everything from raw data, pre-processing steps such as tokenization remain a barrier to true end-to-end foundation models. We introduce a collection of new techniques that enable a dynamic chunking mechanism which automatically learns content -- and context -- dependent segmentation strategies learned jointly with the rest of the model. Incorporating this into an explicit hierarchical network (H-Net) allows replacing the (implicitly hierarchical) tokenization-LM-detokenization pipeline with a single model learned fully end-to-end. When compute- and data- matched, an H-Net with one stage of hierarchy operating at the byte level outperforms a strong Transformer language model operating over BPE tokens. Iterating the hierarchy to multiple stages further increases its performance by modeling multiple levels of abstraction, demonstrating significantly better scaling with data and matching a token-based Transformer of twice its size. H-Nets pretrained on English show significantly increased character-level robustness, and qualitatively learn meaningful data-dependent chunking strategies without any heuristics or explicit supervision. Finally, the H-Net's improvement over tokenized pipelines is further increased in languages and modalities with weaker tokenization heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement in data efficiency over baselines), showing the potential of true end-to-end models that learn and scale better from unprocessed data.
PDF254July 11, 2025