ChatPaper.aiChatPaper

Avanzando en modelos de razonamiento multilingüe con cadenas de pensamiento de lenguaje mixto

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

October 5, 2025
Autores: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI

Resumen

Los modelos de vanguardia recientes emplean razonamientos de cadena de pensamiento largos para explorar espacios de solución en contexto y lograr un rendimiento más sólido. Si bien muchos trabajos estudian la destilación para construir modelos más pequeños pero capaces, la mayoría se centra en el inglés y se sabe poco sobre el razonamiento específico del idioma. Para cerrar esta brecha, primero introducimos **Language-Mixed CoT**, un esquema de razonamiento que alterna entre el inglés y un idioma objetivo, utilizando el inglés como ancla para sobresalir en el razonamiento mientras se minimizan los artefactos de traducción. Como estudio de caso en coreano, creamos **Yi-Sang**: 5.79M prompts en coreano nativo de preguntas y respuestas web, exámenes, STEM y código; 3.7M trazas de razonamiento largo generadas a partir de Qwen3-32B; y un subconjunto específico de 260k de alto rendimiento. Entrenamos nueve modelos (4B-35B) en seis familias (Qwen2.5, Llama-3.1, Gemma-3, etc.). Nuestro mejor modelo, **KO-REAson-35B**, logra un rendimiento de vanguardia, con la puntuación promedio general más alta (64.0 \pm 25), ocupando el primer lugar en 5/9 benchmarks y el segundo en el resto. Los modelos más pequeños y medianos también se benefician sustancialmente, con una mejora promedio de +18.6 puntos en los nueve benchmarks evaluados. Las ablaciones muestran que **Language-Mixed CoT** es más efectivo que CoT monolingüe, también resultando en ganancias de rendimiento cruzado y multimodal. Publicamos nuestra pipeline de curación de datos, sistema de evaluación, conjuntos de datos y modelos para avanzar en la investigación sobre el razonamiento específico del idioma. Colección de datos y modelos: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
PDF222October 9, 2025