Есть ли основания для использования токенизаторов, оптимизированных под диалоги, в крупных языковых моделях?
Is There a Case for Conversation Optimized Tokenizers in Large Language Models?
June 23, 2025
Авторы: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego
cs.AI
Аннотация
Вычислительные и энергетические затраты крупных языковых моделей (LLM) растут экспоненциально из-за увеличения размеров моделей и массового внедрения LLM сотнями миллионов пользователей. Единицей затрат для LLM является вычисление токена. Поэтому токенизатор играет важную роль в эффективности модели, и они тщательно оптимизируются для минимизации количества токенов в тексте их обучающего корпуса. Одним из самых популярных применений LLM являются чат-боты, взаимодействующие с пользователями. Ключевое наблюдение заключается в том, что для таких чат-ботов важна производительность токенизатора на текстовых вводах пользователей и ответах чат-бота. Эти тексты, скорее всего, отличаются от текстов в обучающем корпусе. Таким образом, возникает вопрос: есть ли потенциальная польза в оптимизации токенизаторов для чат-ботов? В данной статье эта идея исследуется для различных токенизаторов путем использования публично доступного корпуса диалогов чат-ботов для перепроектирования их словарей и оценки их производительности в этой области. Результаты показывают, что токенизаторы, оптимизированные для диалогов, последовательно сокращают количество токенов в диалогах чат-ботов, что может привести к значительной экономии энергии в диапазоне от 5% до 10%, при этом оказывая минимальное или даже слегка положительное влияние на эффективность токенизации для исходного обучающего корпуса.
English
The computational and energy costs of Large Language Models (LLMs) have
increased exponentially driven by the growing model sizes and the massive
adoption of LLMs by hundreds of millions of users. The unit cost of an LLM is
the computation of a token. Therefore, the tokenizer plays an important role in
the efficiency of a model, and they are carefully optimized to minimize the
number of tokens for the text in their training corpus. One of the most popular
applications of LLMs are chatbots that interact with users. A key observation
is that, for those chatbots, what is important is the performance of the
tokenizer in the user text input and the chatbot responses. Those are most
likely different from the text in the training corpus. So, a question that
immediately arises is whether there is a potential benefit in optimizing
tokenizers for chatbot conversations. In this paper, this idea is explored for
different tokenizers by using a publicly available corpus of chatbot
conversations to redesign their vocabularies and evaluate their performance in
this domain. The results show that conversation-optimized tokenizers
consistently reduce the number of tokens in chatbot dialogues, which can lead
to meaningful energy savings, in the range of 5% to 10% while having minimal or
even slightly positive impact on tokenization efficiency for the original
training corpus.