Desacoplando los beneficios de la tokenización de subpalabras para el entrenamiento de modelos de lenguaje mediante simulación a nivel de bytes

Resumen

La tokenización de subpalabras es una parte esencial de los modelos modernos de lenguaje grandes (LLMs), pero sus contribuciones específicas a la eficiencia del entrenamiento y al rendimiento del modelo siguen siendo poco comprendidas. En este trabajo, desacoplamos los efectos de la tokenización de subpalabras aislándolos dentro de un proceso de preentrenamiento controlado a nivel de bytes. Formulamos y probamos hipótesis en diversas dimensiones, incluyendo el rendimiento de muestras, el escalado del vocabulario y el prior lingüístico de los límites de subpalabras. Al simular estos efectos en un entorno de nivel de bytes, refinamos nuestra comprensión de por qué los modelos de subpalabras superan a los modelos de bytes crudos y ofrecemos perspectivas para mejorar el preentrenamiento de futuros modelos tanto a nivel de bytes como de subpalabras. En concreto, nuestros experimentos destacan el papel crítico del aumento del rendimiento del entrenamiento y la integración de los límites de subpalabras como priores explícitos o sesgos inductivos.

English

Subword tokenization is an essential part of modern large language models (LLMs), yet its specific contributions to training efficiency and model performance remain poorly understood. In this work, we decouple the effects of subword tokenization by isolating them within a controlled byte-level pretraining pipeline. We formulate and test hypotheses across various dimensions, including sample throughput, vocabulary scaling, and the linguistic prior of subword boundaries. By simulating these effects in a byte-level setting, we refine our understanding of why subword models outperform raw byte models and offer insights to improve the pretraining of future byte-level and subword models. Specifically, our experiments highlight the critical role of increased training throughput and the integration of subword boundaries as either explicit priors or inductive biases.