AdaptiVocab: Steigerung der Effizienz von LLMs in spezialisierten Domänen durch leichte Vokabularanpassung
AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation
March 25, 2025
Autoren: Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben eine beeindruckende Vielseitigkeit als allgemeine Modelle gezeigt. Ihre breite Anwendbarkeit geht jedoch mit einem hohen Rechenaufwand einher, insbesondere beim autoregressiven Decodieren, bei dem jeder Schritt einen Vorwärtsdurchlauf erfordert. In domänenspezifischen Anwendungen sind allgemeine Fähigkeiten unnötig und können gegen Effizienz eingetauscht werden. In dieser Arbeit nehmen wir eine neuartige Perspektive auf die Domänenanpassung ein, indem wir die Latenz und die Rechenkosten reduzieren, indem wir das Vokabular auf spezifische Interessensgebiete anpassen. Wir stellen AdaptiVocab vor, einen End-to-End-Ansatz zur Vokabularanpassung, der darauf abzielt, die Effizienz von LLMs in ressourcenarmen Domänen zu verbessern. AdaptiVocab kann auf jeden Tokenizer und jede Architektur angewendet werden, indem das Vokabular durch domänenspezifische, auf N-Grammen basierende Tokens modifiziert wird, wodurch die Anzahl der für die Eingabeverarbeitung und Ausgabegenerierung benötigten Tokens reduziert wird. AdaptiVocab initialisiert neue N-Token-Einbettungen durch eine exponentiell gewichtete Kombination bestehender Einbettungen und verwendet eine leichtgewichtige Feinabstimmungsphase, die effizient auf einer einzelnen GPU durchgeführt werden kann. Wir evaluieren zwei 7B-LLMs in drei Nischenbereichen und bewerten Effizienz, Generierungsqualität und Leistung bei Endaufgaben. Unsere Ergebnisse zeigen, dass AdaptiVocab die Token-Nutzung um über 25 % reduziert, ohne die Leistung zu beeinträchtigen.
English
Large Language Models (LLMs) have shown impressive versatility as general
purpose models. However, their broad applicability comes at a high-cost
computational overhead, particularly in auto-regressive decoding where each
step requires a forward pass. In domain-specific settings, general-purpose
capabilities are unnecessary and can be exchanged for efficiency. In this work,
we take a novel perspective on domain adaptation, reducing latency and
computational costs by adapting the vocabulary to focused domains of interest.
We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation,
designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be
applied to any tokenizer and architecture, modifying the vocabulary by
replacing tokens with domain-specific n-gram-based tokens, thereby reducing the
number of tokens required for both input processing and output generation.
AdaptiVocab initializes new n-token embeddings using an exponentially weighted
combination of existing embeddings and employs a lightweight fine-tuning phase
that can be efficiently performed on a single GPU. We evaluate two 7B LLMs
across three niche domains, assessing efficiency, generation quality, and
end-task performance. Our results show that AdaptiVocab reduces token usage by
over 25% without compromising performanceSummary
AI-Generated Summary