AdaptiVocab : Amélioration de l'efficacité des LLM dans des domaines ciblés grùce à une adaptation légÚre du vocabulaireAdaptiVocab: Enhancing LLM Efficiency in Focused Domains through
Lightweight Vocabulary Adaptation
Les modĂšles de langage de grande taille (LLMs) ont dĂ©montrĂ© une polyvalence impressionnante en tant que modĂšles Ă usage gĂ©nĂ©ral. Cependant, leur large applicabilitĂ© s'accompagne d'un coĂ»t computationnel Ă©levĂ©, en particulier dans le dĂ©codage auto-rĂ©gressif oĂč chaque Ă©tape nĂ©cessite une passe avant. Dans des contextes spĂ©cifiques Ă un domaine, les capacitĂ©s gĂ©nĂ©rales sont superflues et peuvent ĂȘtre Ă©changĂ©es contre de l'efficacitĂ©. Dans ce travail, nous adoptons une perspective novatrice sur l'adaptation de domaine, rĂ©duisant la latence et les coĂ»ts computationnels en adaptant le vocabulaire Ă des domaines d'intĂ©rĂȘt ciblĂ©s. Nous introduisons AdaptiVocab, une approche de bout en bout pour l'adaptation du vocabulaire, conçue pour amĂ©liorer l'efficacitĂ© des LLMs dans des domaines Ă faibles ressources. AdaptiVocab peut ĂȘtre appliquĂ© Ă n'importe quel tokenizer et architecture, modifiant le vocabulaire en remplaçant les tokens par des tokens basĂ©s sur des n-grammes spĂ©cifiques au domaine, rĂ©duisant ainsi le nombre de tokens nĂ©cessaires pour le traitement des entrĂ©es et la gĂ©nĂ©ration des sorties. AdaptiVocab initialise les nouveaux embeddings de n-tokens en utilisant une combinaison pondĂ©rĂ©e exponentielle des embeddings existants et emploie une phase de fine-tuning lĂ©gĂšre qui peut ĂȘtre effectuĂ©e efficacement sur un seul GPU. Nous Ă©valuons deux LLMs de 7B Ă travers trois domaines de niche, en mesurant l'efficacitĂ©, la qualitĂ© de gĂ©nĂ©ration et la performance sur les tĂąches finales. Nos rĂ©sultats montrent qu'AdaptiVocab rĂ©duit l'utilisation de tokens de plus de 25% sans compromettre les performances.