ChatPaper.aiChatPaper

AdaptiVocab: Mejorando la Eficiencia de los Modelos de Lenguaje de Gran Escala en Dominios Específicos mediante Adaptación Ligera de Vocabulario

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

March 25, 2025
Autores: Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una versatilidad impresionante como modelos de propósito general. Sin embargo, su amplia aplicabilidad conlleva un alto costo computacional, particularmente en la decodificación auto-regresiva, donde cada paso requiere un pase hacia adelante. En entornos específicos de dominio, las capacidades de propósito general son innecesarias y pueden intercambiarse por eficiencia. En este trabajo, adoptamos una perspectiva novedosa sobre la adaptación de dominio, reduciendo la latencia y los costos computacionales mediante la adaptación del vocabulario a dominios de interés específicos. Introducimos AdaptiVocab, un enfoque integral para la adaptación de vocabulario, diseñado para mejorar la eficiencia de los LLMs en dominios de bajos recursos. AdaptiVocab puede aplicarse a cualquier tokenizador y arquitectura, modificando el vocabulario al reemplazar tokens con tokens basados en n-gramas específicos del dominio, reduciendo así el número de tokens necesarios tanto para el procesamiento de entrada como para la generación de salida. AdaptiVocab inicializa nuevas incrustaciones de n-tokens utilizando una combinación ponderada exponencialmente de incrustaciones existentes y emplea una fase de ajuste fino ligero que puede realizarse eficientemente en una sola GPU. Evaluamos dos LLMs de 7B en tres dominios especializados, analizando la eficiencia, la calidad de la generación y el rendimiento en tareas finales. Nuestros resultados muestran que AdaptiVocab reduce el uso de tokens en más del 25% sin comprometer el rendimiento.
English
Large Language Models (LLMs) have shown impressive versatility as general purpose models. However, their broad applicability comes at a high-cost computational overhead, particularly in auto-regressive decoding where each step requires a forward pass. In domain-specific settings, general-purpose capabilities are unnecessary and can be exchanged for efficiency. In this work, we take a novel perspective on domain adaptation, reducing latency and computational costs by adapting the vocabulary to focused domains of interest. We introduce AdaptiVocab, an end-to-end approach for vocabulary adaptation, designed to enhance LLM efficiency in low-resource domains. AdaptiVocab can be applied to any tokenizer and architecture, modifying the vocabulary by replacing tokens with domain-specific n-gram-based tokens, thereby reducing the number of tokens required for both input processing and output generation. AdaptiVocab initializes new n-token embeddings using an exponentially weighted combination of existing embeddings and employs a lightweight fine-tuning phase that can be efficiently performed on a single GPU. We evaluate two 7B LLMs across three niche domains, assessing efficiency, generation quality, and end-task performance. Our results show that AdaptiVocab reduces token usage by over 25% without compromising performance

Summary

AI-Generated Summary

PDF752March 31, 2025