Exploration des modèles de raisonnement multilingues avec des chaînes de pensée mixtes en langues
Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought
October 5, 2025
papers.authors: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI
papers.abstract
Les modèles de pointe récents utilisent des raisonnements en chaîne de pensée étendue pour explorer les espaces de solutions en contexte et atteindre des performances accrues. Bien que de nombreux travaux étudient la distillation pour construire des modèles plus petits mais toujours performants, la plupart se concentrent sur l'anglais et peu de choses sont connues sur le raisonnement spécifique à une langue. Pour combler cette lacune, nous introduisons d'abord **Language-Mixed CoT**, un schéma de raisonnement qui alterne entre l'anglais et une langue cible, utilisant l'anglais comme ancre pour exceller dans le raisonnement tout en minimisant les artefacts de traduction. Dans le cadre d'une étude de cas sur le coréen, nous avons constitué **Yi-Sang** : 5,79 millions de prompts en coréen natif provenant de questions-réponses sur le web, d'examens, de STEM et de code ; 3,7 millions de traces de raisonnement longues générées par Qwen3-32B ; et un sous-ensemble ciblé de 260 000 éléments à haut rendement. Nous avons entraîné neuf modèles (4B-35B) appartenant à six familles (Qwen2.5, Llama-3.1, Gemma-3, etc.). Notre meilleur modèle, **KO-REAson-35B**, atteint des performances de pointe, avec le score moyen global le plus élevé (64,0 ± 25), se classant premier sur 5/9 benchmarks et deuxième sur les autres. Les modèles de taille petite et moyenne bénéficient également de manière significative, avec une amélioration moyenne de +18,6 points sur les neuf benchmarks évalués. Les ablations montrent que **Language-Mixed CoT** est plus efficace que le CoT monolingue, entraînant également des gains de performance multilingues et multimodaux. Nous publions notre pipeline de curation de données, système d'évaluation, ensembles de données et modèles pour faire avancer la recherche sur le raisonnement spécifique à une langue. Données et collection de modèles : https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore
solution spaces in context and achieve stonger performance. While many works
study distillation to build smaller yet capable models, most focus on English
and little is known about language-specific reasoning. To bridge this gap, we
first introduct **Language-Mixed CoT**, a reasoning schema that switches
between English and a target language, using English as an anchor to excel in
reasoning while minimizing translation artificats. As a Korean case study, we
curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and
code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k
high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5,
Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves
state-of-the-art performance, with the highest overall average score (64.0 \pm
25), ranking first on 5/9 benchmarks and second on the remainder. Samller and
mid-sized models also benefit substantially, with an average improvement of
+18.6 points across teh evaluated nine benchmarks. Ablations show
**Language-Mixed CoT** is more effective than monolingual CoT, also resulting
in cross-lingual and mult-modal performance gains. We release our data-curation
pipeline, evaluation system, datasets, and models to advance research on
language-specific reasoning. Data and model collection:
https://huggingface.co/KOREAson.