ChatPaper.aiChatPaper

Otimização de LLMs para o Italiano: Reduzindo a Fertilidade de Tokens e Aumentando a Eficiência por meio da Adaptação do Vocabulário

Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

April 23, 2025
Autores: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI

Resumo

O número de modelos de linguagem grandes (LLMs) pré-treinados está aumentando constantemente, embora a maioria seja projetada predominantemente para o idioma inglês. Embora os LLMs de última geração possam lidar com outros idiomas, devido à contaminação linguística ou a algum grau de dados de pré-treinamento multilíngue, eles não são otimizados para idiomas não ingleses, resultando em codificação ineficiente (alta "fertilidade" de tokens) e velocidade de inferência mais lenta. Neste trabalho, comparamos minuciosamente uma variedade de técnicas de adaptação de vocabulário para otimizar LLMs em inglês para o idioma italiano e propomos a Adaptação de Vocabulário por Alinhamento Semântico (SAVA), um método novo que aproveita o mapeamento neural para substituição de vocabulário. O SAVA alcança desempenho competitivo em várias tarefas subsequentes, aprimorando estratégias de alinhamento fundamentadas. Adaptamos dois LLMs: Mistral-7b-v0.1, reduzindo a fertilidade de tokens em 25%, e Llama-3.1-8B, otimizando o vocabulário e reduzindo o número de parâmetros em 1 bilhão. Mostramos que, após a adaptação do vocabulário, esses modelos podem recuperar seu desempenho com uma etapa relativamente limitada de treinamento contínuo no idioma alvo. Por fim, testamos as capacidades dos modelos adaptados em várias tarefas de múltipla escolha e generativas.
English
The number of pretrained Large Language Models (LLMs) is increasing steadily, though the majority are designed predominantly for the English language. While state-of-the-art LLMs can handle other languages, due to language contamination or some degree of multilingual pretraining data, they are not optimized for non-English languages, leading to inefficient encoding (high token "fertility") and slower inference speed. In this work, we thoroughly compare a variety of vocabulary adaptation techniques for optimizing English LLMs for the Italian language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a novel method that leverages neural mapping for vocabulary substitution. SAVA achieves competitive performance across multiple downstream tasks, enhancing grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and reducing the number of parameters by 1 billion. We show that, following the adaptation of the vocabulary, these models can recover their performance with a relatively limited stage of continual training on the target language. Finally, we test the capabilities of the adapted models on various multi-choice and generative tasks.

Summary

AI-Generated Summary

PDF151April 28, 2025