ChatPaper.aiChatPaper

Расширение возможностей многоязычных моделей рассуждений с использованием смешанного языка в цепочке мыслей

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

October 5, 2025
Авторы: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI

Аннотация

Современные передовые модели используют длинные цепочки рассуждений для исследования пространства решений в контексте и достижения более высокой производительности. Хотя многие работы изучают дистилляцию для создания более компактных, но способных моделей, большинство из них сосредоточено на английском языке, и мало что известно о языково-специфических рассуждениях. Чтобы устранить этот пробел, мы впервые представляем **Language-Mixed CoT** — схему рассуждений, которая переключается между английским и целевым языком, используя английский как якорь для улучшения рассуждений при минимизации артефактов перевода. В качестве кейса для корейского языка мы создаем **Yi-Sang**: 5,79 млн нативных корейских запросов из веб-вопросов и ответов, экзаменов, STEM и кода; 3,7 млн длинных трасс рассуждений, сгенерированных с помощью Qwen3-32B; и целенаправленное подмножество из 260 тыс. высокоэффективных примеров. Мы обучаем девять моделей (4B–35B) из шести семейств (Qwen2.5, Llama-3.1, Gemma-3 и др.). Наша лучшая модель, **KO-REAson-35B**, достигает наивысшей производительности с наивысшим общим средним баллом (64,0 ± 25), занимая первое место на 5 из 9 бенчмарков и второе — на остальных. Меньшие и средние модели также значительно выигрывают, демонстрируя среднее улучшение на +18,6 баллов по всем девяти бенчмаркам. Абляционные исследования показывают, что **Language-Mixed CoT** эффективнее, чем монолингвальные CoT, а также приводит к улучшениям в кросс-лингвальных и мультимодальных задачах. Мы публикуем наш конвейер подготовки данных, систему оценки, наборы данных и модели для продвижения исследований в области языково-специфических рассуждений. Данные и коллекция моделей доступны по ссылке: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
PDF222October 9, 2025