Het bevorderen van multilingue redeneervermogen in modellen met taal-gemixte ketens van gedachten
Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought
October 5, 2025
Auteurs: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI
Samenvatting
Recente frontier-modellen gebruiken lange ketens van redenering om oplossingsruimtes in context te verkennen en betere prestaties te bereiken. Hoewel veel werken zich richten op distillatie om kleinere maar capabele modellen te bouwen, concentreren de meeste zich op Engels, en er is weinig bekend over taal-specifieke redenering. Om deze kloof te overbruggen, introduceren we eerst **Language-Mixed CoT**, een redeneerschema dat schakelt tussen Engels en een doeltaal, waarbij Engels als anker wordt gebruikt om uit te blinken in redenering terwijl vertaalartefacten worden geminimaliseerd. Als een Koreaans casestudy hebben we **Yi-Sang** samengesteld: 5,79 miljoen native-Koreaanse prompts uit web-Q&A, examens, STEM en code; 3,7 miljoen lange redeneersporen gegenereerd door Qwen3-32B; en een gerichte subset van 260k hoogrenderende voorbeelden. We trainen negen modellen (4B-35B) over zes families (Qwen2.5, Llama-3.1, Gemma-3, etc.). Ons beste model, **KO-REAson-35B**, behaalt state-of-the-art prestaties, met de hoogste gemiddelde score (64,0 ± 25), en staat op de eerste plaats voor 5/9 benchmarks en op de tweede plaats voor de overige. Kleinere en middelgrote modellen profiteren ook aanzienlijk, met een gemiddelde verbetering van +18,6 punten over de negen geëvalueerde benchmarks. Ablaties tonen aan dat **Language-Mixed CoT** effectiever is dan eentalige CoT, wat ook leidt tot cross-linguale en multimodale prestatieverbeteringen. We geven onze data-curatiepipeline, evaluatiesysteem, datasets en modellen vrij om onderzoek naar taal-specifieke redenering te bevorderen. Data en modelcollectie: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore
solution spaces in context and achieve stonger performance. While many works
study distillation to build smaller yet capable models, most focus on English
and little is known about language-specific reasoning. To bridge this gap, we
first introduct **Language-Mixed CoT**, a reasoning schema that switches
between English and a target language, using English as an anchor to excel in
reasoning while minimizing translation artificats. As a Korean case study, we
curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and
code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k
high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5,
Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves
state-of-the-art performance, with the highest overall average score (64.0 \pm
25), ranking first on 5/9 benchmarks and second on the remainder. Samller and
mid-sized models also benefit substantially, with an average improvement of
+18.6 points across teh evaluated nine benchmarks. Ablations show
**Language-Mixed CoT** is more effective than monolingual CoT, also resulting
in cross-lingual and mult-modal performance gains. We release our data-curation
pipeline, evaluation system, datasets, and models to advance research on
language-specific reasoning. Data and model collection:
https://huggingface.co/KOREAson.