Van Bytes naar Ideeën: Taalmodellering met Autoregressieve U-Nets
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
June 17, 2025
Auteurs: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz
cs.AI
Samenvatting
Tokenisatie legt een vaste granulariteit op aan de invoertekst, waardoor wordt vastgelegd hoe een taalmodel opereert op data en hoe ver in de toekomst het voorspellingen doet. Byte Pair Encoding (BPE) en vergelijkbare schema's splitsen tekst eenmalig, bouwen een statische woordenschat op en laten het model vastzitten aan die keuze. Wij verminderen deze rigiditeit door een autoregressief U-Net te introduceren dat leert om zijn eigen tokens in te bedden tijdens het trainen. Het netwerk leest ruwe bytes, groepeert ze tot woorden, vervolgens tot woordparen en daarna tot maximaal 4 woorden, waardoor het een multi-schaalbeeld van de sequentie krijgt. In diepere fasen moet het model verder in de toekomst voorspellen – het anticipeert op de volgende paar woorden in plaats van de volgende byte – waardoor diepere fasen zich richten op bredere semantische patronen terwijl eerdere fasen zich bezighouden met fijne details. Bij zorgvuldige afstemming en controle van de pretrainingsberekeningen evenaren ondiepe hiërarchieën sterke BPE-baselines, en diepere hiërarchieën vertonen een veelbelovende trend. Omdat tokenisatie nu binnen het model plaatsvindt, kan hetzelfde systeem zowel karakterniveautaken aan als kennis overdragen tussen talen met weinig bronnen.
English
Tokenization imposes a fixed granularity on the input text, freezing how a
language model operates on data and how far in the future it predicts. Byte
Pair Encoding (BPE) and similar schemes split text once, build a static
vocabulary, and leave the model stuck with that choice. We relax this rigidity
by introducing an autoregressive U-Net that learns to embed its own tokens as
it trains. The network reads raw bytes, pools them into words, then pairs of
words, then up to 4 words, giving it a multi-scale view of the sequence. At
deeper stages, the model must predict further into the future -- anticipating
the next few words rather than the next byte -- so deeper stages focus on
broader semantic patterns while earlier stages handle fine details. When
carefully tuning and controlling pretraining compute, shallow hierarchies tie
strong BPE baselines, and deeper hierarchies have a promising trend. Because
tokenization now lives inside the model, the same system can handle
character-level tasks and carry knowledge across low-resource languages.