Découpler les avantages de la tokenisation en sous-mots pour l'entraînement de modèles de langue via une simulation au niveau des octets

Résumé

La tokenisation en sous-mots est un élément essentiel des grands modèles de langage modernes (LLMs), mais ses contributions spécifiques à l'efficacité d'entraînement et aux performances du modèle restent mal comprises. Dans ce travail, nous dissocions les effets de la tokenisation en sous-mots en les isolant au sein d'un pipeline de pré-entraînement contrôlé au niveau des octets. Nous formulons et testons des hypothèses selon diverses dimensions, notamment le débit d'échantillons, la mise à l'échelle du vocabulaire et l'a priori linguistique des frontières de sous-mots. En simulant ces effets dans un contexte au niveau des octets, nous affinons notre compréhension des raisons pour lesquelles les modèles à sous-mots surpassent les modèles bruts en octets, et nous offrons des perspectives pour améliorer le pré-entraînement des futurs modèles au niveau des octets et à sous-mots. Plus précisément, nos expériences soulignent le rôle crucial de l'augmentation du débit d'entraînement et de l'intégration des frontières de sous-mots en tant qu'a priori explicites ou biais inductifs.

English

Subword tokenization is an essential part of modern large language models (LLMs), yet its specific contributions to training efficiency and model performance remain poorly understood. In this work, we decouple the effects of subword tokenization by isolating them within a controlled byte-level pretraining pipeline. We formulate and test hypotheses across various dimensions, including sample throughput, vocabulary scaling, and the linguistic prior of subword boundaries. By simulating these effects in a byte-level setting, we refine our understanding of why subword models outperform raw byte models and offer insights to improve the pretraining of future byte-level and subword models. Specifically, our experiments highlight the critical role of increased training throughput and the integration of subword boundaries as either explicit priors or inductive biases.