AdaptiVocab: Verbetering van LLM-efficiëntie in gespecialiseerde domeinen door middel van lichtgewicht vocabulaire-aanpassingAdaptiVocab: Enhancing LLM Efficiency in Focused Domains through
Lightweight Vocabulary Adaptation
Grote Taalmodellen (LLMs) hebben indrukwekkende veelzijdigheid getoond als algemene modellen. Hun brede toepasbaarheid gaat echter gepaard met een hoge rekentijd, met name bij auto-regressieve decodering, waarbij elke stap een forward pass vereist. In domeinspecifieke situaties zijn algemene mogelijkheden overbodig en kunnen ze worden ingeruild voor efficiëntie. In dit werk nemen we een nieuw perspectief op domeinadaptatie, waarbij we de latentie en rekentijd verminderen door het vocabulaire aan te passen aan specifieke interessegebieden. We introduceren AdaptiVocab, een end-to-end benadering voor vocabulaire-adaptatie, ontworpen om de efficiëntie van LLMs in domeinen met beperkte bronnen te verbeteren. AdaptiVocab kan worden toegepast op elke tokenizer en architectuur, waarbij het vocabulaire wordt aangepast door tokens te vervangen door domeinspecifieke n-gram-gebaseerde tokens, waardoor het aantal benodigde tokens voor zowel inputverwerking als outputgeneratie wordt verminderd. AdaptiVocab initialiseert nieuwe n-token-embeddings met behulp van een exponentieel gewogen combinatie van bestaande embeddings en maakt gebruik van een lichtgewicht fine-tuningfase die efficiënt kan worden uitgevoerd op een enkele GPU. We evalueren twee 7B LLMs in drie niche-domeinen, waarbij we de efficiëntie, generatiekwaliteit en eindtaakprestaties beoordelen. Onze resultaten laten zien dat AdaptiVocab het tokengebruik met meer dan 25% vermindert zonder in te leveren op prestaties.