AdaptiVocab: Steigerung der Effizienz von LLMs in spezialisierten Domänen durch
leichte VokabularanpassungAdaptiVocab: Enhancing LLM Efficiency in Focused Domains through
Lightweight Vocabulary Adaptation
Große Sprachmodelle (LLMs) haben eine beeindruckende Vielseitigkeit als allgemeine Modelle gezeigt. Ihre breite Anwendbarkeit geht jedoch mit einem hohen Rechenaufwand einher, insbesondere beim autoregressiven Decodieren, bei dem jeder Schritt einen Vorwärtsdurchlauf erfordert. In domänenspezifischen Anwendungen sind allgemeine Fähigkeiten unnötig und können gegen Effizienz eingetauscht werden. In dieser Arbeit nehmen wir eine neuartige Perspektive auf die Domänenanpassung ein, indem wir die Latenz und die Rechenkosten reduzieren, indem wir das Vokabular auf spezifische Interessensgebiete anpassen. Wir stellen AdaptiVocab vor, einen End-to-End-Ansatz zur Vokabularanpassung, der darauf abzielt, die Effizienz von LLMs in ressourcenarmen Domänen zu verbessern. AdaptiVocab kann auf jeden Tokenizer und jede Architektur angewendet werden, indem das Vokabular durch domänenspezifische, auf N-Grammen basierende Tokens modifiziert wird, wodurch die Anzahl der für die Eingabeverarbeitung und Ausgabegenerierung benötigten Tokens reduziert wird. AdaptiVocab initialisiert neue N-Token-Einbettungen durch eine exponentiell gewichtete Kombination bestehender Einbettungen und verwendet eine leichtgewichtige Feinabstimmungsphase, die effizient auf einer einzelnen GPU durchgeführt werden kann. Wir evaluieren zwei 7B-LLMs in drei Nischenbereichen und bewerten Effizienz, Generierungsqualität und Leistung bei Endaufgaben. Unsere Ergebnisse zeigen, dass AdaptiVocab die Token-Nutzung um über 25 % reduziert, ohne die Leistung zu beeinträchtigen.