AdaptiVocab: Mejorando la Eficiencia de los Modelos de Lenguaje de Gran Escala en Dominios Específicos mediante Adaptación Ligera de VocabularioAdaptiVocab: Enhancing LLM Efficiency in Focused Domains through
Lightweight Vocabulary Adaptation
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una versatilidad impresionante como modelos de propósito general. Sin embargo, su amplia aplicabilidad conlleva un alto costo computacional, particularmente en la decodificación auto-regresiva, donde cada paso requiere un pase hacia adelante. En entornos específicos de dominio, las capacidades de propósito general son innecesarias y pueden intercambiarse por eficiencia. En este trabajo, adoptamos una perspectiva novedosa sobre la adaptación de dominio, reduciendo la latencia y los costos computacionales mediante la adaptación del vocabulario a dominios de interés específicos. Introducimos AdaptiVocab, un enfoque integral para la adaptación de vocabulario, diseñado para mejorar la eficiencia de los LLMs en dominios de bajos recursos. AdaptiVocab puede aplicarse a cualquier tokenizador y arquitectura, modificando el vocabulario al reemplazar tokens con tokens basados en n-gramas específicos del dominio, reduciendo así el número de tokens necesarios tanto para el procesamiento de entrada como para la generación de salida. AdaptiVocab inicializa nuevas incrustaciones de n-tokens utilizando una combinación ponderada exponencialmente de incrustaciones existentes y emplea una fase de ajuste fino ligero que puede realizarse eficientemente en una sola GPU. Evaluamos dos LLMs de 7B en tres dominios especializados, analizando la eficiencia, la calidad de la generación y el rendimiento en tareas finales. Nuestros resultados muestran que AdaptiVocab reduce el uso de tokens en más del 25% sin comprometer el rendimiento.