AdaptiVocab : Amélioration de l'efficacité des LLM dans des domaines ciblés grâce à une adaptation légère du vocabulaire
AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation
March 25, 2025
Auteurs: Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré une polyvalence impressionnante en tant que modèles à usage général. Cependant, leur large applicabilité s'accompagne d'un coût computationnel élevé, en particulier dans le décodage auto-régressif où chaque étape nécessite une passe avant. Dans des contextes spécifiques à un domaine, les capacités générales sont superflues et peuvent être échangées contre de l'efficacité. Dans ce travail, nous adoptons une perspective novatrice sur l'adaptation de domaine, réduisant la latence et les coûts computationnels en adaptant le vocabulaire à des domaines d'intérêt ciblés. Nous introduisons AdaptiVocab, une approche de bout en bout pour l'adaptation du vocabulaire, conçue pour améliorer l'efficacité des LLMs dans des domaines à faibles ressources. AdaptiVocab peut être appliqué à n'importe quel tokenizer et architecture, modifiant le vocabulaire en remplaçant les tokens par des tokens basés sur des n-grammes spécifiques au domaine, réduisant ainsi le nombre de tokens nécessaires pour le traitement des entrées et la génération des sorties. AdaptiVocab initialise les nouveaux embeddings de n-tokens en utilisant une combinaison pondérée exponentielle des embeddings existants et emploie une phase de fine-tuning légère qui peut être effectuée efficacement sur un seul GPU. Nous évaluons deux LLMs de 7B à travers trois domaines de niche, en mesurant l'efficacité, la qualité de génération et la performance sur les tâches finales. Nos résultats montrent qu'AdaptiVocab réduit l'utilisation de tokens de plus de 25% sans compromettre les performances.
English
Large Language Models (LLMs) have shown impressive versatility as general
purpose models. However, their broad applicability comes at a high-cost
computational overhead, particularly in auto-regressive decoding where each
step requires a forward pass. In domain-specific settings, general-purpose
capabilities are unnecessary and can be exchanged for efficiency. In this work,
we take a novel perspective on domain adaptation, reducing latency and
computational costs by adapting the vocabulary to focused domains of interest.
We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation,
designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be
applied to any tokenizer and architecture, modifying the vocabulary by
replacing tokens with domain-specific n-gram-based tokens, thereby reducing the
number of tokens required for both input processing and output generation.
AdaptiVocab initializes new n-token embeddings using an exponentially weighted
combination of existing embeddings and employs a lightweight fine-tuning phase
that can be efficiently performed on a single GPU. We evaluate two 7B LLMs
across three niche domains, assessing efficiency, generation quality, and
end-task performance. Our results show that AdaptiVocab reduces token usage by
over 25% without compromising performanceSummary
AI-Generated Summary