ChatPaper.aiChatPaper

Esiste un caso per i tokenizer ottimizzati per la conversazione nei modelli linguistici di grandi dimensioni?

Is There a Case for Conversation Optimized Tokenizers in Large Language Models?

June 23, 2025
Autori: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego
cs.AI

Abstract

I costi computazionali ed energetici dei Large Language Model (LLM) sono aumentati in modo esponenziale, spinti dalle dimensioni crescenti dei modelli e dalla massiccia adozione degli LLM da parte di centinaia di milioni di utenti. Il costo unitario di un LLM è il calcolo di un token. Pertanto, il tokenizer svolge un ruolo importante nell'efficienza di un modello, e viene ottimizzato con cura per minimizzare il numero di token per il testo nel corpus di addestramento. Una delle applicazioni più popolari degli LLM sono i chatbot che interagiscono con gli utenti. Un'osservazione chiave è che, per questi chatbot, ciò che conta è la performance del tokenizer nel testo di input dell'utente e nelle risposte del chatbot. Questi testi sono molto probabilmente diversi da quelli presenti nel corpus di addestramento. Quindi, sorge immediatamente una domanda: c'è un potenziale vantaggio nell'ottimizzare i tokenizer per le conversazioni dei chatbot? In questo articolo, questa idea viene esplorata per diversi tokenizer utilizzando un corpus pubblico di conversazioni chatbot per ridisegnare i loro vocabolari e valutarne le prestazioni in questo dominio. I risultati mostrano che i tokenizer ottimizzati per le conversazioni riducono costantemente il numero di token nei dialoghi dei chatbot, il che può portare a risparmi energetici significativi, nell'ordine del 5% al 10%, con un impatto minimo o addirittura leggermente positivo sull'efficienza della tokenizzazione per il corpus di addestramento originale.
English
The computational and energy costs of Large Language Models (LLMs) have increased exponentially driven by the growing model sizes and the massive adoption of LLMs by hundreds of millions of users. The unit cost of an LLM is the computation of a token. Therefore, the tokenizer plays an important role in the efficiency of a model, and they are carefully optimized to minimize the number of tokens for the text in their training corpus. One of the most popular applications of LLMs are chatbots that interact with users. A key observation is that, for those chatbots, what is important is the performance of the tokenizer in the user text input and the chatbot responses. Those are most likely different from the text in the training corpus. So, a question that immediately arises is whether there is a potential benefit in optimizing tokenizers for chatbot conversations. In this paper, this idea is explored for different tokenizers by using a publicly available corpus of chatbot conversations to redesign their vocabularies and evaluate their performance in this domain. The results show that conversation-optimized tokenizers consistently reduce the number of tokens in chatbot dialogues, which can lead to meaningful energy savings, in the range of 5% to 10% while having minimal or even slightly positive impact on tokenization efficiency for the original training corpus.
PDF71June 26, 2025