Desacoplando los beneficios de la tokenización de subpalabras para el entrenamiento de modelos de lenguaje mediante simulación a nivel de bytes
Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation
May 14, 2026
Autores: Théo Gigant, Bowen Peng, Jeffrey Quesnelle
cs.AI
Resumen
La tokenización de subpalabras es una parte esencial de los modelos modernos de lenguaje grandes (LLMs), pero sus contribuciones específicas a la eficiencia del entrenamiento y al rendimiento del modelo siguen siendo poco comprendidas. En este trabajo, desacoplamos los efectos de la tokenización de subpalabras aislándolos dentro de un proceso de preentrenamiento controlado a nivel de bytes. Formulamos y probamos hipótesis en diversas dimensiones, incluyendo el rendimiento de muestras, el escalado del vocabulario y el prior lingüístico de los límites de subpalabras. Al simular estos efectos en un entorno de nivel de bytes, refinamos nuestra comprensión de por qué los modelos de subpalabras superan a los modelos de bytes crudos y ofrecemos perspectivas para mejorar el preentrenamiento de futuros modelos tanto a nivel de bytes como de subpalabras. En concreto, nuestros experimentos destacan el papel crítico del aumento del rendimiento del entrenamiento y la integración de los límites de subpalabras como priores explícitos o sesgos inductivos.
English
Subword tokenization is an essential part of modern large language models (LLMs), yet its specific contributions to training efficiency and model performance remain poorly understood. In this work, we decouple the effects of subword tokenization by isolating them within a controlled byte-level pretraining pipeline. We formulate and test hypotheses across various dimensions, including sample throughput, vocabulary scaling, and the linguistic prior of subword boundaries. By simulating these effects in a byte-level setting, we refine our understanding of why subword models outperform raw byte models and offer insights to improve the pretraining of future byte-level and subword models. Specifically, our experiments highlight the critical role of increased training throughput and the integration of subword boundaries as either explicit priors or inductive biases.