대규모 언어 모델에서 대화 최적화 토크나이저의 필요성은 있는가?
Is There a Case for Conversation Optimized Tokenizers in Large Language Models?
June 23, 2025
저자: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego
cs.AI
초록
대규모 언어 모델(LLM)의 계산 및 에너지 비용은 모델 크기의 증가와 수억 명의 사용자에 의한 대규모 채택으로 인해 기하급수적으로 증가해 왔습니다. LLM의 단위 비용은 토큰 계산입니다. 따라서 토크나이저는 모델의 효율성에 중요한 역할을 하며, 학습 코퍼스 내 텍스트에 대한 토큰 수를 최소화하기 위해 신중하게 최적화됩니다. LLM의 가장 인기 있는 응용 분야 중 하나는 사용자와 상호작용하는 챗봇입니다. 여기서 주목할 점은 이러한 챗봇의 경우, 사용자 텍스트 입력과 챗봇 응답에서 토크나이저의 성능이 중요하다는 것입니다. 이는 학습 코퍼스의 텍스트와는 다를 가능성이 높습니다. 따라서 즉각적으로 제기되는 질문은 챗봇 대화를 위해 토크나이저를 최적화하는 것이 잠재적인 이점을 가질 수 있는지 여부입니다. 본 논문에서는 공개된 챗봇 대화 코퍼스를 사용하여 다양한 토크나이저의 어휘를 재설계하고 이 도메인에서의 성능을 평가함으로써 이 아이디어를 탐구합니다. 결과는 대화 최적화 토크나이저가 챗봇 대화에서 토큰 수를 지속적으로 줄이며, 이는 5%에서 10% 범위의 의미 있는 에너지 절약으로 이어질 수 있음을 보여줍니다. 또한 원본 학습 코퍼스에 대한 토큰화 효율성에는 최소한의 영향만 미치거나 약간의 긍정적인 영향을 미치는 것으로 나타났습니다.
English
The computational and energy costs of Large Language Models (LLMs) have
increased exponentially driven by the growing model sizes and the massive
adoption of LLMs by hundreds of millions of users. The unit cost of an LLM is
the computation of a token. Therefore, the tokenizer plays an important role in
the efficiency of a model, and they are carefully optimized to minimize the
number of tokens for the text in their training corpus. One of the most popular
applications of LLMs are chatbots that interact with users. A key observation
is that, for those chatbots, what is important is the performance of the
tokenizer in the user text input and the chatbot responses. Those are most
likely different from the text in the training corpus. So, a question that
immediately arises is whether there is a potential benefit in optimizing
tokenizers for chatbot conversations. In this paper, this idea is explored for
different tokenizers by using a publicly available corpus of chatbot
conversations to redesign their vocabularies and evaluate their performance in
this domain. The results show that conversation-optimized tokenizers
consistently reduce the number of tokens in chatbot dialogues, which can lead
to meaningful energy savings, in the range of 5% to 10% while having minimal or
even slightly positive impact on tokenization efficiency for the original
training corpus.