Förderung mehrsprachiger Denkmodelle durch sprachgemischte Ketten des Denkens
Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought
October 5, 2025
papers.authors: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI
papers.abstract
Aktuelle Spitzenmodelle verwenden lange Ketten von Denkschritten (Chain-of-Thought Reasoning), um Lösungsräume im Kontext zu erkunden und eine stärkere Leistung zu erzielen. Während viele Arbeiten die Destillation untersuchen, um kleinere, aber dennoch leistungsfähige Modelle zu entwickeln, konzentrieren sich die meisten auf Englisch, und es ist wenig über sprachspezifisches Denken bekannt. Um diese Lücke zu schließen, führen wir zunächst **Language-Mixed CoT** ein, ein Denkschema, das zwischen Englisch und einer Zielsprache wechselt und Englisch als Anker verwendet, um die Denkfähigkeiten zu verbessern und Übersetzungsartefakte zu minimieren. Als Fallstudie für Koreanisch stellen wir **Yi-Sang** vor: 5,79 Millionen native koreanische Prompts aus Web-Fragen und -Antworten, Prüfungen, MINT-Fächern und Code; 3,7 Millionen lange Denkspuren, die von Qwen3-32B generiert wurden; und eine gezielte Teilmenge von 260.000 hochwertigen Beispielen. Wir trainieren neun Modelle (4B–35B) aus sechs Modellfamilien (Qwen2.5, Llama-3.1, Gemma-3 usw.). Unser bestes Modell, **KO-REAson-35B**, erzielt Spitzenleistungen mit dem höchsten durchschnittlichen Gesamtwert (64,0 ± 25), belegt den ersten Platz bei 5/9 Benchmarks und den zweiten Platz bei den übrigen. Kleinere und mittelgroße Modelle profitieren ebenfalls erheblich, mit einer durchschnittlichen Verbesserung von +18,6 Punkten über die neun bewerteten Benchmarks hinweg. Ablationen zeigen, dass **Language-Mixed CoT** effektiver ist als monolinguales CoT und auch zu leistungssteigernden Effekten in der Cross-Lingualität und Multimodalität führt. Wir veröffentlichen unsere Datenkuratierungs-Pipeline, das Bewertungssystem, Datensätze und Modelle, um die Forschung zu sprachspezifischem Denken voranzutreiben. Daten- und Modellsammlung: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore
solution spaces in context and achieve stonger performance. While many works
study distillation to build smaller yet capable models, most focus on English
and little is known about language-specific reasoning. To bridge this gap, we
first introduct **Language-Mixed CoT**, a reasoning schema that switches
between English and a target language, using English as an anchor to excel in
reasoning while minimizing translation artificats. As a Korean case study, we
curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and
code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k
high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5,
Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves
state-of-the-art performance, with the highest overall average score (64.0 \pm
25), ranking first on 5/9 benchmarks and second on the remainder. Samller and
mid-sized models also benefit substantially, with an average improvement of
+18.6 points across teh evaluated nine benchmarks. Ablations show
**Language-Mixed CoT** is more effective than monolingual CoT, also resulting
in cross-lingual and mult-modal performance gains. We release our data-curation
pipeline, evaluation system, datasets, and models to advance research on
language-specific reasoning. Data and model collection:
https://huggingface.co/KOREAson.