AdaptiVocab: Steigerung der Effizienz von LLMs in spezialisierten Domänen durch leichte Vokabularanpassung

papers.abstract

Große Sprachmodelle (LLMs) haben eine beeindruckende Vielseitigkeit als allgemeine Modelle gezeigt. Ihre breite Anwendbarkeit geht jedoch mit einem hohen Rechenaufwand einher, insbesondere beim autoregressiven Decodieren, bei dem jeder Schritt einen Vorwärtsdurchlauf erfordert. In domänenspezifischen Anwendungen sind allgemeine Fähigkeiten unnötig und können gegen Effizienz eingetauscht werden. In dieser Arbeit nehmen wir eine neuartige Perspektive auf die Domänenanpassung ein, indem wir die Latenz und die Rechenkosten reduzieren, indem wir das Vokabular auf spezifische Interessensgebiete anpassen. Wir stellen AdaptiVocab vor, einen End-to-End-Ansatz zur Vokabularanpassung, der darauf abzielt, die Effizienz von LLMs in ressourcenarmen Domänen zu verbessern. AdaptiVocab kann auf jeden Tokenizer und jede Architektur angewendet werden, indem das Vokabular durch domänenspezifische, auf N-Grammen basierende Tokens modifiziert wird, wodurch die Anzahl der für die Eingabeverarbeitung und Ausgabegenerierung benötigten Tokens reduziert wird. AdaptiVocab initialisiert neue N-Token-Einbettungen durch eine exponentiell gewichtete Kombination bestehender Einbettungen und verwendet eine leichtgewichtige Feinabstimmungsphase, die effizient auf einer einzelnen GPU durchgeführt werden kann. Wir evaluieren zwei 7B-LLMs in drei Nischenbereichen und bewerten Effizienz, Generierungsqualität und Leistung bei Endaufgaben. Unsere Ergebnisse zeigen, dass AdaptiVocab die Token-Nutzung um über 25 % reduziert, ohne die Leistung zu beeinträchtigen.

English

Large Language Models (LLMs) have shown impressive versatility as general purpose models. However, their broad applicability comes at a high-cost computational overhead, particularly in auto-regressive decoding where each step requires a forward pass. In domain-specific settings, general-purpose capabilities are unnecessary and can be exchanged for efficiency. In this work, we take a novel perspective on domain adaptation, reducing latency and computational costs by adapting the vocabulary to focused domains of interest. We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation, designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be applied to any tokenizer and architecture, modifying the vocabulary by replacing tokens with domain-specific n-gram-based tokens, thereby reducing the number of tokens required for both input processing and output generation. AdaptiVocab initializes new n-token embeddings using an exponentially weighted combination of existing embeddings and employs a lightweight fine-tuning phase that can be efficiently performed on a single GPU. We evaluate two 7B LLMs across three niche domains, assessing efficiency, generation quality, and end-task performance. Our results show that AdaptiVocab reduces token usage by over 25% without compromising performance

AdaptiVocab: Steigerung der Effizienz von LLMs in spezialisierten Domänen durch leichte Vokabularanpassung

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

papers.abstract

Support