ChatPaper.aiChatPaper

大規模言語モデルにおける会話最適化トークナイザーの必要性はあるか?

Is There a Case for Conversation Optimized Tokenizers in Large Language Models?

June 23, 2025
著者: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego
cs.AI

要旨

大規模言語モデル(LLM)の計算コストとエネルギーコストは、モデルサイズの拡大と数億ユーザーによるLLMの大規模な採用によって指数関数的に増加しています。LLMの単位コストはトークンの計算です。したがって、トークナイザーはモデルの効率性において重要な役割を果たし、トレーニングコーパス内のテキストに対してトークン数を最小化するよう慎重に最適化されています。LLMの最も一般的なアプリケーションの一つは、ユーザーと対話するチャットボットです。重要な観察点として、これらのチャットボットにとって重要なのは、ユーザーのテキスト入力とチャットボットの応答におけるトークナイザーの性能です。これらはトレーニングコーパス内のテキストとは異なる可能性が高いです。したがって、すぐに浮かぶ疑問は、チャットボットの会話のためにトークナイザーを最適化することに潜在的な利点があるかどうかです。本論文では、このアイデアを異なるトークナイザーに対して探求し、公開されているチャットボット会話コーパスを使用してそれらの語彙を再設計し、この領域での性能を評価します。結果は、会話最適化されたトークナイザーが一貫してチャットボット対話におけるトークン数を減少させ、5%から10%の範囲で有意なエネルギー節約につながることを示しています。また、元のトレーニングコーパスに対するトークン化効率には最小限の、あるいはわずかにプラスの影響しか及ぼしません。
English
The computational and energy costs of Large Language Models (LLMs) have increased exponentially driven by the growing model sizes and the massive adoption of LLMs by hundreds of millions of users. The unit cost of an LLM is the computation of a token. Therefore, the tokenizer plays an important role in the efficiency of a model, and they are carefully optimized to minimize the number of tokens for the text in their training corpus. One of the most popular applications of LLMs are chatbots that interact with users. A key observation is that, for those chatbots, what is important is the performance of the tokenizer in the user text input and the chatbot responses. Those are most likely different from the text in the training corpus. So, a question that immediately arises is whether there is a potential benefit in optimizing tokenizers for chatbot conversations. In this paper, this idea is explored for different tokenizers by using a publicly available corpus of chatbot conversations to redesign their vocabularies and evaluate their performance in this domain. The results show that conversation-optimized tokenizers consistently reduce the number of tokens in chatbot dialogues, which can lead to meaningful energy savings, in the range of 5% to 10% while having minimal or even slightly positive impact on tokenization efficiency for the original training corpus.
PDF61June 26, 2025