イタリア語向けLLMの最適化:語彙適応によるトークン生成率の低減と効率性の向上
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
April 23, 2025
著者: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
cs.AI
要旨
事前学習済みの大規模言語モデル(LLMs)の数は着実に増加していますが、その大多数は主に英語向けに設計されています。最先端のLLMsは他の言語も扱うことができますが、言語の混入やある程度の多言語事前学習データによる影響で、非英語言語に対して最適化されておらず、非効率なエンコーディング(高いトークン「肥沃度」)や推論速度の低下を引き起こしています。本研究では、英語LLMsをイタリア語向けに最適化するための様々な語彙適応技術を徹底的に比較し、ニューラルマッピングを活用した語彙置換の新手法であるSemantic Alignment Vocabulary Adaptation(SAVA)を提案します。SAVAは、複数の下流タスクにおいて競争力のある性能を発揮し、グラウンディングされたアライメント戦略を強化します。我々は2つのLLMsを適応させました:Mistral-7b-v0.1はトークン肥沃度を25%削減し、Llama-3.1-8Bは語彙を最適化してパラメータ数を10億削減しました。語彙適応後、これらのモデルは対象言語での比較的限られた継続学習段階で性能を回復できることを示します。最後に、適応されたモデルの能力を、複数の多肢選択タスクおよび生成タスクでテストしました。
English
The number of pretrained Large Language Models (LLMs) is increasing steadily,
though the majority are designed predominantly for the English language. While
state-of-the-art LLMs can handle other languages, due to language contamination
or some degree of multilingual pretraining data, they are not optimized for
non-English languages, leading to inefficient encoding (high token "fertility")
and slower inference speed. In this work, we thoroughly compare a variety of
vocabulary adaptation techniques for optimizing English LLMs for the Italian
language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a
novel method that leverages neural mapping for vocabulary substitution. SAVA
achieves competitive performance across multiple downstream tasks, enhancing
grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing
token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and
reducing the number of parameters by 1 billion. We show that, following the
adaptation of the vocabulary, these models can recover their performance with a
relatively limited stage of continual training on the target language. Finally,
we test the capabilities of the adapted models on various multi-choice and
generative tasks.Summary
AI-Generated Summary