ChatPaper.aiChatPaper

Y a-t-il un intérêt à utiliser des tokenizers optimisés pour la conversation dans les grands modèles de langage ?

Is There a Case for Conversation Optimized Tokenizers in Large Language Models?

June 23, 2025
Auteurs: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego
cs.AI

Résumé

Les coûts computationnels et énergétiques des modèles de langage de grande taille (LLMs) ont augmenté de manière exponentielle, poussés par la croissance de la taille des modèles et l'adoption massive de ces LLMs par des centaines de millions d'utilisateurs. Le coût unitaire d'un LLM correspond au calcul d'un token. Par conséquent, le tokenizer joue un rôle crucial dans l'efficacité d'un modèle, et ils sont soigneusement optimisés pour minimiser le nombre de tokens pour le texte dans leur corpus d'entraînement. L'une des applications les plus populaires des LLMs sont les chatbots qui interagissent avec les utilisateurs. Une observation clé est que, pour ces chatbots, ce qui importe est la performance du tokenizer sur le texte saisi par l'utilisateur et les réponses du chatbot. Ces textes sont très probablement différents de ceux du corpus d'entraînement. Ainsi, une question qui se pose immédiatement est s'il existe un avantage potentiel à optimiser les tokenizers pour les conversations de chatbots. Dans cet article, cette idée est explorée pour différents tokenizers en utilisant un corpus public de conversations de chatbots pour redéfinir leurs vocabulaires et évaluer leur performance dans ce domaine. Les résultats montrent que les tokenizers optimisés pour les conversations réduisent systématiquement le nombre de tokens dans les dialogues de chatbots, ce qui peut entraîner des économies d'énergie significatives, de l'ordre de 5 % à 10 %, tout en ayant un impact minimal, voire légèrement positif, sur l'efficacité de la tokenisation pour le corpus d'entraînement original.
English
The computational and energy costs of Large Language Models (LLMs) have increased exponentially driven by the growing model sizes and the massive adoption of LLMs by hundreds of millions of users. The unit cost of an LLM is the computation of a token. Therefore, the tokenizer plays an important role in the efficiency of a model, and they are carefully optimized to minimize the number of tokens for the text in their training corpus. One of the most popular applications of LLMs are chatbots that interact with users. A key observation is that, for those chatbots, what is important is the performance of the tokenizer in the user text input and the chatbot responses. Those are most likely different from the text in the training corpus. So, a question that immediately arises is whether there is a potential benefit in optimizing tokenizers for chatbot conversations. In this paper, this idea is explored for different tokenizers by using a publicly available corpus of chatbot conversations to redesign their vocabularies and evaluate their performance in this domain. The results show that conversation-optimized tokenizers consistently reduce the number of tokens in chatbot dialogues, which can lead to meaningful energy savings, in the range of 5% to 10% while having minimal or even slightly positive impact on tokenization efficiency for the original training corpus.
PDF61June 26, 2025