Ottimizzazione dei LLM per l'italiano: riduzione della fertilità dei token e miglioramento dell'efficienza attraverso l'adattamento del vocabolario
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
April 23, 2025
Autori: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI
Abstract
Il numero di modelli linguistici di grandi dimensioni (LLM) preaddestrati sta aumentando costantemente, sebbene la maggior parte sia progettata principalmente per la lingua inglese. Sebbene gli LLM all'avanguardia siano in grado di gestire altre lingue, a causa della contaminazione linguistica o di un certo grado di dati di preaddestramento multilingue, non sono ottimizzati per le lingue non inglesi, portando a una codifica inefficiente (elevata "fertilità" dei token) e a una velocità di inferenza più lenta. In questo lavoro, confrontiamo approfonditamente una varietà di tecniche di adattamento del vocabolario per ottimizzare gli LLM inglesi per la lingua italiana e proponiamo il Semantic Alignment Vocabulary Adaptation (SAVA), un metodo innovativo che sfrutta il mapping neurale per la sostituzione del vocabolario. SAVA raggiunge prestazioni competitive in molteplici task downstream, migliorando le strategie di allineamento contestuale. Adattiamo due LLM: Mistral-7b-v0.1, riducendo la fertilità dei token del 25%, e Llama-3.1-8B, ottimizzando il vocabolario e riducendo il numero di parametri di 1 miliardo. Dimostriamo che, dopo l'adattamento del vocabolario, questi modelli possono recuperare le loro prestazioni con una fase relativamente limitata di addestramento continuo sulla lingua target. Infine, testiamo le capacità dei modelli adattati su vari task a scelta multipla e generativi.
English
The number of pretrained Large Language Models (LLMs) is increasing steadily,
though the majority are designed predominantly for the English language. While
state-of-the-art LLMs can handle other languages, due to language contamination
or some degree of multilingual pretraining data, they are not optimized for
non-English languages, leading to inefficient encoding (high token "fertility")
and slower inference speed. In this work, we thoroughly compare a variety of
vocabulary adaptation techniques for optimizing English LLMs for the Italian
language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a
novel method that leverages neural mapping for vocabulary substitution. SAVA
achieves competitive performance across multiple downstream tasks, enhancing
grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing
token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and
reducing the number of parameters by 1 billion. We show that, following the
adaptation of the vocabulary, these models can recover their performance with a
relatively limited stage of continual training on the target language. Finally,
we test the capabilities of the adapted models on various multi-choice and
generative tasks.Summary
AI-Generated Summary