Des octets aux idées : Modélisation du langage avec des U-Nets autorégressifs
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
June 17, 2025
Auteurs: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz
cs.AI
Résumé
La tokenisation impose une granularité fixe au texte d'entrée, figant la manière dont un modèle de langage opère sur les données et la portée de ses prédictions futures. L'encodage par paires d'octets (Byte Pair Encoding, BPE) et des schémas similaires divisent le texte une fois, construisent un vocabulaire statique et laissent le modèle contraint par ce choix. Nous assouplissons cette rigidité en introduisant un U-Net autorégressif qui apprend à intégrer ses propres tokens au cours de son entraînement. Le réseau lit des octets bruts, les regroupe en mots, puis en paires de mots, et jusqu'à 4 mots, lui offrant ainsi une vue multi-échelle de la séquence. Aux étapes plus profondes, le modèle doit prédire plus loin dans le futur – anticipant les prochains mots plutôt que le prochain octet – de sorte que les étapes plus profondes se concentrent sur des motifs sémantiques plus larges, tandis que les étapes initiales gèrent les détails fins. En ajustant et en contrôlant soigneusement le calcul de pré-entraînement, les hiérarchies peu profondes égalent les bases de référence solides du BPE, et les hiérarchies plus profondes montrent une tendance prometteuse. Comme la tokenisation réside désormais à l'intérieur du modèle, le même système peut gérer des tâches au niveau des caractères et transférer des connaissances entre langues à faibles ressources.
English
Tokenization imposes a fixed granularity on the input text, freezing how a
language model operates on data and how far in the future it predicts. Byte
Pair Encoding (BPE) and similar schemes split text once, build a static
vocabulary, and leave the model stuck with that choice. We relax this rigidity
by introducing an autoregressive U-Net that learns to embed its own tokens as
it trains. The network reads raw bytes, pools them into words, then pairs of
words, then up to 4 words, giving it a multi-scale view of the sequence. At
deeper stages, the model must predict further into the future -- anticipating
the next few words rather than the next byte -- so deeper stages focus on
broader semantic patterns while earlier stages handle fine details. When
carefully tuning and controlling pretraining compute, shallow hierarchies tie
strong BPE baselines, and deeper hierarchies have a promising trend. Because
tokenization now lives inside the model, the same system can handle
character-level tasks and carry knowledge across low-resource languages.