ChatPaper.aiChatPaper

Spingere i modelli di ragionamento multilingue con il ragionamento a catena misto di lingue

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

October 5, 2025
Autori: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI

Abstract

I recenti modelli all'avanguardia impiegano lunghi ragionamenti a catena di pensiero per esplorare spazi di soluzione nel contesto e ottenere prestazioni più robuste. Sebbene molti lavori studino la distillazione per costruire modelli più piccoli ma comunque capaci, la maggior parte si concentra sull'inglese e si sa poco sul ragionamento specifico per lingua. Per colmare questa lacuna, introduciamo **Language-Mixed CoT**, uno schema di ragionamento che alterna tra inglese e una lingua target, utilizzando l'inglese come ancoraggio per eccellere nel ragionamento minimizzando gli artefatti di traduzione. Come caso di studio per il coreano, curiamo **Yi-Sang**: 5,79 milioni di prompt in coreano nativo provenienti da Q&A web, esami, STEM e codice; 3,7 milioni di tracce di ragionamento lungo generate da Qwen3-32B; e un sottoinsieme mirato di 260k ad alto rendimento. Addestriamo nove modelli (4B-35B) in sei famiglie (Qwen2.5, Llama-3.1, Gemma-3, ecc.). Il nostro miglior modello, **KO-REAson-35B**, raggiunge prestazioni all'avanguardia, con il punteggio medio complessivo più alto (64,0 ± 25), classificandosi primo su 5/9 benchmark e secondo sui restanti. Anche i modelli più piccoli e di medie dimensioni beneficiano sostanzialmente, con un miglioramento medio di +18,6 punti sui nove benchmark valutati. Le ablazioni mostrano che **Language-Mixed CoT** è più efficace del CoT monolingue, portando anche a guadagni nelle prestazioni cross-linguali e multimodali. Rilasciamo la nostra pipeline di curatela dei dati, il sistema di valutazione, i dataset e i modelli per avanzare la ricerca sul ragionamento specifico per lingua. Raccolta dati e modelli: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
PDF262October 9, 2025