De Bytes a Ideas: Modelado del Lenguaje con U-Nets Autoregresivos
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
June 17, 2025
Autores: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz
cs.AI
Resumen
La tokenización impone una granularidad fija en el texto de entrada, congelando cómo un modelo de lenguaje opera sobre los datos y qué tan lejos en el futuro predice. La Codificación de Pares de Bytes (BPE, por sus siglas en inglés) y esquemas similares dividen el texto una vez, construyen un vocabulario estático y dejan al modelo atado a esa elección. Relajamos esta rigidez introduciendo una U-Net autorregresiva que aprende a incrustar sus propios tokens mientras se entrena. La red lee bytes sin procesar, los agrupa en palabras, luego en pares de palabras y hasta en grupos de 4 palabras, otorgándole una visión multiescala de la secuencia. En etapas más profundas, el modelo debe predecir más lejos en el futuro —anticipando las siguientes palabras en lugar del próximo byte—, por lo que las etapas más profundas se centran en patrones semánticos más amplios, mientras que las etapas iniciales manejan detalles finos. Al ajustar y controlar cuidadosamente el cómputo de preentrenamiento, las jerarquías superficiales igualan los sólidos baselines de BPE, y las jerarquías más profundas muestran una tendencia prometedora. Dado que la tokenización ahora reside dentro del modelo, el mismo sistema puede manejar tareas a nivel de caracteres y transferir conocimiento entre lenguajes de bajos recursos.
English
Tokenization imposes a fixed granularity on the input text, freezing how a
language model operates on data and how far in the future it predicts. Byte
Pair Encoding (BPE) and similar schemes split text once, build a static
vocabulary, and leave the model stuck with that choice. We relax this rigidity
by introducing an autoregressive U-Net that learns to embed its own tokens as
it trains. The network reads raw bytes, pools them into words, then pairs of
words, then up to 4 words, giving it a multi-scale view of the sequence. At
deeper stages, the model must predict further into the future -- anticipating
the next few words rather than the next byte -- so deeper stages focus on
broader semantic patterns while earlier stages handle fine details. When
carefully tuning and controlling pretraining compute, shallow hierarchies tie
strong BPE baselines, and deeper hierarchies have a promising trend. Because
tokenization now lives inside the model, the same system can handle
character-level tasks and carry knowledge across low-resource languages.