ChatPaper.aiChatPaper

AdaptiVocab: Verbetering van LLM-efficiëntie in gespecialiseerde domeinen door middel van lichtgewicht vocabulaire-aanpassing

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

March 25, 2025
Auteurs: Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben indrukwekkende veelzijdigheid getoond als algemene modellen. Hun brede toepasbaarheid gaat echter gepaard met een hoge rekentijd, met name bij auto-regressieve decodering, waarbij elke stap een forward pass vereist. In domeinspecifieke situaties zijn algemene mogelijkheden overbodig en kunnen ze worden ingeruild voor efficiëntie. In dit werk nemen we een nieuw perspectief op domeinadaptatie, waarbij we de latentie en rekentijd verminderen door het vocabulaire aan te passen aan specifieke interessegebieden. We introduceren AdaptiVocab, een end-to-end benadering voor vocabulaire-adaptatie, ontworpen om de efficiëntie van LLMs in domeinen met beperkte bronnen te verbeteren. AdaptiVocab kan worden toegepast op elke tokenizer en architectuur, waarbij het vocabulaire wordt aangepast door tokens te vervangen door domeinspecifieke n-gram-gebaseerde tokens, waardoor het aantal benodigde tokens voor zowel inputverwerking als outputgeneratie wordt verminderd. AdaptiVocab initialiseert nieuwe n-token-embeddings met behulp van een exponentieel gewogen combinatie van bestaande embeddings en maakt gebruik van een lichtgewicht fine-tuningfase die efficiënt kan worden uitgevoerd op een enkele GPU. We evalueren twee 7B LLMs in drie niche-domeinen, waarbij we de efficiëntie, generatiekwaliteit en eindtaakprestaties beoordelen. Onze resultaten laten zien dat AdaptiVocab het tokengebruik met meer dan 25% vermindert zonder in te leveren op prestaties.
English
Large Language Models (LLMs) have shown impressive versatility as general purpose models. However, their broad applicability comes at a high-cost computational overhead, particularly in auto-regressive decoding where each step requires a forward pass. In domain-specific settings, general-purpose capabilities are unnecessary and can be exchanged for efficiency. In this work, we take a novel perspective on domain adaptation, reducing latency and computational costs by adapting the vocabulary to focused domains of interest. We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation, designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be applied to any tokenizer and architecture, modifying the vocabulary by replacing tokens with domain-specific n-gram-based tokens, thereby reducing the number of tokens required for both input processing and output generation. AdaptiVocab initializes new n-token embeddings using an exponentially weighted combination of existing embeddings and employs a lightweight fine-tuning phase that can be efficiently performed on a single GPU. We evaluate two 7B LLMs across three niche domains, assessing efficiency, generation quality, and end-task performance. Our results show that AdaptiVocab reduces token usage by over 25% without compromising performance

Summary

AI-Generated Summary

PDF752March 31, 2025