Optimización de LLMs para el italiano: Reducción de la fertilidad de tokens y mejora de la eficiencia mediante la adaptación del vocabulario
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
April 23, 2025
Autores: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI
Resumen
El número de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) preentrenados está aumentando de manera constante, aunque la mayoría están diseñados predominantemente para el idioma inglés. Si bien los LLMs de última generación pueden manejar otros idiomas, debido a la contaminación lingüística o a cierto grado de datos de preentrenamiento multilingüe, no están optimizados para idiomas no ingleses, lo que resulta en una codificación ineficiente (alta "fertilidad" de tokens) y una velocidad de inferencia más lenta. En este trabajo, comparamos exhaustivamente una variedad de técnicas de adaptación de vocabulario para optimizar LLMs en inglés para el idioma italiano, y proponemos Semantic Alignment Vocabulary Adaptation (SAVA), un método novedoso que aprovecha el mapeo neuronal para la sustitución de vocabulario. SAVA logra un rendimiento competitivo en múltiples tareas posteriores, mejorando las estrategias de alineación fundamentadas. Adaptamos dos LLMs: Mistral-7b-v0.1, reduciendo la fertilidad de tokens en un 25\%, y Llama-3.1-8B, optimizando el vocabulario y reduciendo el número de parámetros en 1 billón. Demostramos que, tras la adaptación del vocabulario, estos modelos pueden recuperar su rendimiento con una etapa relativamente limitada de entrenamiento continuo en el idioma objetivo. Finalmente, probamos las capacidades de los modelos adaptados en diversas tareas de opción múltiple y generativas.
English
The number of pretrained Large Language Models (LLMs) is increasing steadily,
though the majority are designed predominantly for the English language. While
state-of-the-art LLMs can handle other languages, due to language contamination
or some degree of multilingual pretraining data, they are not optimized for
non-English languages, leading to inefficient encoding (high token "fertility")
and slower inference speed. In this work, we thoroughly compare a variety of
vocabulary adaptation techniques for optimizing English LLMs for the Italian
language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a
novel method that leverages neural mapping for vocabulary substitution. SAVA
achieves competitive performance across multiple downstream tasks, enhancing
grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing
token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and
reducing the number of parameters by 1 billion. We show that, following the
adaptation of the vocabulary, these models can recover their performance with a
relatively limited stage of continual training on the target language. Finally,
we test the capabilities of the adapted models on various multi-choice and
generative tasks.Summary
AI-Generated Summary