オープンレシピ:言語固有のLLMを1日で推論モデルに適応させるためのモデルマージング
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging
February 13, 2025
著者: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai
cs.AI
要旨
本論文は、DeepSeek R1の高度な推論能力などを言語固有の大規模言語モデル(LLM)に組み込むことを目的としたデータ選択およびモデル統合手法について調査しています。特に、タイのLLMに焦点を当てています。私たちの目標は、言語固有のLLMの推論能力を向上させることであり、同時にそれらの目標言語能力を維持することです。DeepSeek R1は推論に優れていますが、主に英語や中国語などの高リソース言語に恩恵をもたらしています。しかし、低リソース言語は英語中心のトレーニングデータやモデルの最適化の支配により、サービスが不十分です。この制限により、低リソース言語での信頼性のないコード切り替えやタスクの効果の低下が生じます。一方、地域および地域固有のLLMイニシアチブは、地域の言語的忠実度を向上させることに焦点を当てた言語固有のLLMの開発によって、このギャップを埋めようと試みています。われわれは、公開されているデータセットと120ドルの計算予算だけで、言語固有のLLMの推論能力をDeepSeek R1と同等のレベルに向上させることが可能であり、同時に目標言語タスクのパフォーマンスを損なうことなく示す。
English
This paper investigates data selection and model merging methodologies aimed
at incorporating advanced reasoning capabilities such as those of DeepSeek R1
into language-specific large language models (LLMs), with a particular focus on
the Thai LLM. Our goal is to enhance the reasoning capabilities of
language-specific LLMs while maintaining their target language abilities.
DeepSeek R1 excels in reasoning but primarily benefits high-resource languages
such as English and Chinese. However, low-resource languages remain underserved
due to the dominance of English-centric training data and model optimizations,
which limit performance in these languages. This limitation results in
unreliable code-switching and diminished effectiveness on tasks in low-resource
languages. Meanwhile, local and regional LLM initiatives have attempted to
bridge this gap by developing language-specific LLMs that focus on improving
local linguistic fidelity. We demonstrate that, with only publicly available
datasets and a computational budget of $120, it is possible to enhance the
reasoning capabilities of language-specific LLMs to match the level of DeepSeek
R1, without compromising their performance on target language tasks.Summary
AI-Generated Summary