ChatPaper.aiChatPaper

언어 혼합 사고 연채(Mixed-Language Chain-of-Thought)를 활용한 다국어 추론 모델 개선

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

October 5, 2025
저자: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu
cs.AI

초록

최신 프론티어 모델들은 컨텍스트 내에서 솔루션 공간을 탐색하고 더 강력한 성능을 달성하기 위해 긴 사고 사슬(chain-of-thought) 추론을 사용합니다. 많은 연구들이 더 작으면서도 능력 있는 모델을 구축하기 위해 지식 증류(distillation)를 연구하지만, 대부분 영어에 초점을 맞추고 있으며 언어별 추론에 대해서는 거의 알려져 있지 않습니다. 이러한 격차를 해소하기 위해, 우리는 먼저 **언어 혼합 사고 사슬(Language-Mixed CoT)**을 소개합니다. 이 추론 방식은 영어와 대상 언어 사이를 전환하며, 영어를 앵커로 사용하여 추론 능력을 극대화하고 번역 아티팩트를 최소화합니다. 한국어 사례 연구로, 우리는 **이상(Yi-Sang)** 데이터셋을 구축했습니다: 웹 Q&A, 시험, STEM, 코드에서 수집된 579만 개의 한국어 원본 프롬프트; Qwen3-32B에서 생성된 370만 개의 긴 추론 흔적; 그리고 26만 개의 고수익 타겟 서브셋입니다. 우리는 6개 모델 패밀리(Qwen2.5, Llama-3.1, Gemma-3 등)에 걸쳐 9개 모델(4B-35B)을 학습시켰습니다. 우리의 최고 모델인 **KO-REAson-35B**는 최첨단 성능을 달성하며, 전체 평균 점수(64.0 ± 25)에서 가장 높은 점수를 기록하고 9개 벤치마크 중 5개에서 1위, 나머지에서 2위를 차지했습니다. 더 작고 중간 크기의 모델들도 상당한 이점을 얻었으며, 평가된 9개 벤치마크에서 평균 +18.6점의 향상을 보였습니다. 어블레이션(ablation) 연구는 **언어 혼합 사고 사슬**이 단일 언어 사고 사슬보다 더 효과적이며, 또한 크로스-링구얼(cross-lingual) 및 멀티모달(multimodal) 성능 향상으로 이어짐을 보여줍니다. 우리는 언어별 추론 연구를 발전시키기 위해 데이터 큐레이션 파이프라인, 평가 시스템, 데이터셋 및 모델을 공개합니다. 데이터 및 모델 컬렉션: https://huggingface.co/KOREAson.
English
Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
PDF222October 9, 2025