ChatPaper.aiChatPaper

言語混合チェイン・オブ・ソートを用いた多言語推論モデルの推進

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

October 5, 2025
著者: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI

要旨

最近のフロンティアモデルは、長い連鎖的思考(Chain-of-Thought)推論を用いてコンテキスト内の解空間を探索し、より強力なパフォーマンスを達成しています。多くの研究が、より小さくても有能なモデルを構築するための蒸留に焦点を当てていますが、そのほとんどは英語に限定されており、言語固有の推論についてはほとんど知られていません。このギャップを埋めるため、我々はまず**Language-Mixed CoT**を導入しました。これは、英語とターゲット言語を切り替える推論スキーマで、英語をアンカーとして推論を強化しつつ、翻訳によるアーティファクトを最小化します。韓国語のケーススタディとして、我々は**Yi-Sang**をキュレーションしました。これは、ウェブ上のQ&A、試験、STEM、コードから収集した579万のネイティブ韓国語プロンプト、Qwen3-32Bから生成された370万の長い推論トレース、そして26万の高収益サブセットを含みます。我々は6つのファミリー(Qwen2.5、Llama-3.1、Gemma-3など)にわたる9つのモデル(4B-35B)をトレーニングしました。最良のモデルである**KO-REAson-35B**は、最高の全体平均スコア(64.0 ± 25)を達成し、9つのベンチマークのうち5つで1位、残りで2位となりました。小型および中型モデルも大幅に改善され、評価された9つのベンチマーク全体で平均+18.6ポイントの向上が見られました。アブレーションスタディは、**Language-Mixed CoT**が単一言語のCoTよりも効果的であり、また、言語間およびマルチモーダルなパフォーマンス向上をもたらすことを示しています。我々は、言語固有の推論研究を進めるために、データキュレーションパイプライン、評価システム、データセット、およびモデルを公開します。データとモデルのコレクションは以下にあります:https://huggingface.co/KOREAson。
English
Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
PDF222October 9, 2025