Het ontkoppelen van de voordelen van subwoordtokenisatie voor de training van taalmodellen via simulatie op byteniveau

Samenvatting

Subwoordtokenisatie is een essentieel onderdeel van moderne grote taalmodellen (LLM's), maar de specifieke bijdragen ervan aan trainingsefficiëntie en modelprestaties blijven slecht begrepen. In dit werk ontkoppelen we de effecten van subwoordtokenisatie door ze te isoleren binnen een gecontroleerde voortrainingspijplijn op byteniveau. We formuleren en testen hypothesen over verschillende dimensies, waaronder monsterdoorvoer, schaling van de woordenschat en de linguïstische prior van subwoordgrenzen. Door deze effecten te simuleren in een setting op byteniveau, verfijnen we ons begrip van waarom subwoordmodellen beter presteren dan ruwe bytemodellen en bieden we inzichten om de voortraining van toekomstige modellen op byteniveau en subwoordmodellen te verbeteren. In het bijzonder benadrukken onze experimenten de cruciale rol van een verhoogde trainingdoorvoer en de integratie van subwoordgrenzen als expliciete prior of inductieve bias.

English

Subword tokenization is an essential part of modern large language models (LLMs), yet its specific contributions to training efficiency and model performance remain poorly understood. In this work, we decouple the effects of subword tokenization by isolating them within a controlled byte-level pretraining pipeline. We formulate and test hypotheses across various dimensions, including sample throughput, vocabulary scaling, and the linguistic prior of subword boundaries. By simulating these effects in a byte-level setting, we refine our understanding of why subword models outperform raw byte models and offer insights to improve the pretraining of future byte-level and subword models. Specifically, our experiments highlight the critical role of increased training throughput and the integration of subword boundaries as either explicit priors or inductive biases.