ChatPaper.aiChatPaper

Förderung mehrsprachiger Denkmodelle durch sprachgemischte Ketten des Denkens

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

October 5, 2025
papers.authors: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI

papers.abstract

Aktuelle Spitzenmodelle verwenden lange Ketten von Denkschritten (Chain-of-Thought Reasoning), um Lösungsräume im Kontext zu erkunden und eine stärkere Leistung zu erzielen. Während viele Arbeiten die Destillation untersuchen, um kleinere, aber dennoch leistungsfähige Modelle zu entwickeln, konzentrieren sich die meisten auf Englisch, und es ist wenig über sprachspezifisches Denken bekannt. Um diese Lücke zu schließen, führen wir zunächst **Language-Mixed CoT** ein, ein Denkschema, das zwischen Englisch und einer Zielsprache wechselt und Englisch als Anker verwendet, um die Denkfähigkeiten zu verbessern und Übersetzungsartefakte zu minimieren. Als Fallstudie für Koreanisch stellen wir **Yi-Sang** vor: 5,79 Millionen native koreanische Prompts aus Web-Fragen und -Antworten, Prüfungen, MINT-Fächern und Code; 3,7 Millionen lange Denkspuren, die von Qwen3-32B generiert wurden; und eine gezielte Teilmenge von 260.000 hochwertigen Beispielen. Wir trainieren neun Modelle (4B–35B) aus sechs Modellfamilien (Qwen2.5, Llama-3.1, Gemma-3 usw.). Unser bestes Modell, **KO-REAson-35B**, erzielt Spitzenleistungen mit dem höchsten durchschnittlichen Gesamtwert (64,0 ± 25), belegt den ersten Platz bei 5/9 Benchmarks und den zweiten Platz bei den übrigen. Kleinere und mittelgroße Modelle profitieren ebenfalls erheblich, mit einer durchschnittlichen Verbesserung von +18,6 Punkten über die neun bewerteten Benchmarks hinweg. Ablationen zeigen, dass **Language-Mixed CoT** effektiver ist als monolinguales CoT und auch zu leistungssteigernden Effekten in der Cross-Lingualität und Multimodalität führt. Wir veröffentlichen unsere Datenkuratierungs-Pipeline, das Bewertungssystem, Datensätze und Modelle, um die Forschung zu sprachspezifischem Denken voranzutreiben. Daten- und Modellsammlung: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
PDF222October 9, 2025