Оптимизация языковых моделей для итальянского языка: снижение плодовитости токенов и повышение эффективности за счет адаптации словаря
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
April 23, 2025
Авторы: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI
Аннотация
Количество предварительно обученных крупных языковых моделей (LLM) неуклонно растет, однако большинство из них разработаны преимущественно для английского языка. Хотя современные LLM способны обрабатывать другие языки благодаря языковой контаминации или определенной степени многоязычных данных предварительного обучения, они не оптимизированы для неанглийских языков, что приводит к неэффективному кодированию (высокой "фертильности" токенов) и снижению скорости вывода. В данной работе мы тщательно сравниваем различные методы адаптации словаря для оптимизации английских LLM под итальянский язык и предлагаем Semantic Alignment Vocabulary Adaptation (SAVA) — новый метод, использующий нейронное отображение для замены словаря. SAVA демонстрирует конкурентоспособные результаты в различных задачах, улучшая стратегии заземленного выравнивания. Мы адаптируем две модели: Mistral-7b-v0.1, сокращая фертильность токенов на 25%, и Llama-3.1-8B, оптимизируя словарь и уменьшая количество параметров на 1 миллиард. Мы показываем, что после адаптации словаря эти модели могут восстановить свою производительность при относительно ограниченном этапе непрерывного обучения на целевом языке. Наконец, мы тестируем возможности адаптированных моделей на различных задачах с множественным выбором и генеративных задачах.
English
The number of pretrained Large Language Models (LLMs) is increasing steadily,
though the majority are designed predominantly for the English language. While
state-of-the-art LLMs can handle other languages, due to language contamination
or some degree of multilingual pretraining data, they are not optimized for
non-English languages, leading to inefficient encoding (high token "fertility")
and slower inference speed. In this work, we thoroughly compare a variety of
vocabulary adaptation techniques for optimizing English LLMs for the Italian
language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a
novel method that leverages neural mapping for vocabulary substitution. SAVA
achieves competitive performance across multiple downstream tasks, enhancing
grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing
token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and
reducing the number of parameters by 1 billion. We show that, following the
adaptation of the vocabulary, these models can recover their performance with a
relatively limited stage of continual training on the target language. Finally,
we test the capabilities of the adapted models on various multi-choice and
generative tasks.Summary
AI-Generated Summary