ChatPaper.aiChatPaper

Explorando Modelos de Raciocínio Multilíngues com Cadeia de Pensamento em Linguagem Mista

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

October 5, 2025
Autores: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI

Resumo

Modelos de ponta recentes empregam raciocínio de cadeia de pensamento longa para explorar espaços de solução em contexto e alcançar desempenho superior. Embora muitos trabalhos estudem a destilação para construir modelos menores, porém capazes, a maioria se concentra no inglês, e pouco se sabe sobre o raciocínio específico de idiomas. Para preencher essa lacuna, introduzimos o **CoT Misto de Idiomas**, um esquema de raciocínio que alterna entre o inglês e um idioma alvo, usando o inglês como âncora para se destacar no raciocínio enquanto minimiza artefatos de tradução. Como estudo de caso em coreano, criamos o **Yi-Sang**: 5,79 milhões de prompts nativos em coreano de Q&A da web, exames, STEM e código; 3,7 milhões de traços de raciocínio longo gerados a partir do Qwen3-32B; e um subconjunto direcionado de 260 mil exemplos de alto rendimento. Treinamos nove modelos (4B-35B) em seis famílias (Qwen2.5, Llama-3.1, Gemma-3, etc.). Nosso melhor modelo, **KO-REAson-35B**, alcança desempenho de ponta, com a maior média geral de pontuação (64,0 ± 25), ocupando o primeiro lugar em 5/9 benchmarks e o segundo lugar nos demais. Modelos menores e de médio porte também se beneficiam substancialmente, com uma melhoria média de +18,6 pontos nos nove benchmarks avaliados. Ablações mostram que o **CoT Misto de Idiomas** é mais eficaz que o CoT monolíngue, resultando também em ganhos de desempenho cross-lingual e multimodal. Disponibilizamos nosso pipeline de curadoria de dados, sistema de avaliação, conjuntos de dados e modelos para avançar a pesquisa em raciocínio específico de idiomas. Coleção de dados e modelos: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
PDF262October 9, 2025