수학적 추론이 일반적인 LLM 능력을 향상시키는가? LLM 추론의 전이성 이해
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
July 1, 2025
저자: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI
초록
수학적 추론은 대형 언어 모델(LLM)의 발전을 상징하는 대표적인 사례로 자리 잡았으며, 새로운 모델들이 MATH 및 AIME와 같은 벤치마크에서 인간 수준의 성능을 빠르게 뛰어넘고 있습니다. 그러나 수학 리더보드가 주마다 개선됨에 따라, 이러한 성과가 더 광범위한 문제 해결 능력을 반영하는지 아니면 단순히 좁은 범위에서의 과적합을 보이는 것인지 질문할 필요가 있습니다. 이 질문에 답하기 위해, 우리는 수학, 과학 질의응답, 에이전트 계획, 코딩, 그리고 표준 지시 따르기 등 다양한 작업에 걸쳐 20개 이상의 오픈 웨이트 추론 튜닝 모델을 평가했습니다. 놀랍게도, 수학에서 성공한 대부분의 모델들이 다른 영역으로 그 성과를 전이하지 못한다는 사실을 발견했습니다. 이 현상을 엄밀히 연구하기 위해, 우리는 Qwen3-14B 모델을 대상으로 수학 데이터만 사용하되 다른 튜닝 방법을 적용한 통제 실험을 수행했습니다. 그 결과, 강화 학습(RL) 튜닝 모델은 여러 영역에서 잘 일반화되는 반면, 지도 미세 조정(SFT) 튜닝 모델은 종종 일반적인 능력을 잊어버리는 것으로 나타났습니다. 잠재 공간 표현과 토큰 공간 분포 변화 분석을 통해, SFT는 상당한 표현 및 출력 변화를 유도하는 반면, RL은 일반 도메인 구조를 보존한다는 사실이 밝혀졌습니다. 우리의 결과는 추론 모델을 발전시키기 위한 표준 사후 학습 방법론, 특히 SFT 증류 데이터에 대한 의존성을 재고할 필요가 있음을 시사합니다.
English
Math reasoning has become the poster child of progress in large language
models (LLMs), with new models rapidly surpassing human-level performance on
benchmarks like MATH and AIME. But as math leaderboards improve week by week,
it is worth asking: do these gains reflect broader problem-solving ability or
just narrow overfitting? To answer this question, we evaluate over 20
open-weight reasoning-tuned models across a broad suite of tasks, including
math, scientific QA, agent planning, coding, and standard
instruction-following. We surprisingly find that most models that succeed in
math fail to transfer their gains to other domains. To rigorously study this
phenomenon, we conduct controlled experiments on Qwen3-14B models using
math-only data but different tuning methods. We find that reinforcement
learning (RL)-tuned models generalize well across domains, while supervised
fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space
representation and token-space distribution shift analyses reveal that SFT
induces substantial representation and output drift, while RL preserves
general-domain structure. Our results suggest a need to rethink standard
post-training recipes, particularly the reliance on SFT-distilled data for
advancing reasoning models.