Verbeterd Wiskundig Redeneren de Algemene Capaciteiten van LLM's? Inzicht in de Overdraagbaarheid van LLM-Redenering
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
July 1, 2025
Auteurs: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI
Samenvatting
Wiskundig redeneren is het boegbeeld geworden van vooruitgang in grote taalmodellen (LLMs), waarbij nieuwe modellen snel menselijk niveau overtreffen op benchmarks zoals MATH en AIME. Maar naarmate de ranglijsten voor wiskunde week na week verbeteren, is het de vraag waard: weerspiegelen deze vooruitgangen een breder probleemoplossend vermogen of slechts een nauwe overfitting? Om deze vraag te beantwoorden, evalueren we meer dan 20 open-source redeneermodellen over een breed scala aan taken, waaronder wiskunde, wetenschappelijke vraag-antwoordtaken, agentplanning, programmeren en standaard instructievolging. Verrassend genoeg ontdekken we dat de meeste modellen die succesvol zijn in wiskunde hun vooruitgang niet kunnen overdragen naar andere domeinen. Om dit fenomeen rigoureus te bestuderen, voeren we gecontroleerde experimenten uit met Qwen3-14B-modellen met alleen wiskundige data maar verschillende afstemmethoden. We ontdekken dat modellen die zijn afgestemd met reinforcement learning (RL) goed generaliseren over domeinen, terwijl modellen die zijn afgestemd met supervised fine-tuning (SFT) vaak algemene capaciteiten vergeten. Analyses van latent-ruimte representaties en token-ruimte distributieverschuivingen onthullen dat SFT aanzienlijke representatie- en outputdrift veroorzaakt, terwijl RL de algemene domeinstructuur behoudt. Onze resultaten suggereren dat het nodig is om standaard post-trainingsrecepten te heroverwegen, met name de afhankelijkheid van SFT-gedistilleerde data voor het bevorderen van redeneermodellen.
English
Math reasoning has become the poster child of progress in large language
models (LLMs), with new models rapidly surpassing human-level performance on
benchmarks like MATH and AIME. But as math leaderboards improve week by week,
it is worth asking: do these gains reflect broader problem-solving ability or
just narrow overfitting? To answer this question, we evaluate over 20
open-weight reasoning-tuned models across a broad suite of tasks, including
math, scientific QA, agent planning, coding, and standard
instruction-following. We surprisingly find that most models that succeed in
math fail to transfer their gains to other domains. To rigorously study this
phenomenon, we conduct controlled experiments on Qwen3-14B models using
math-only data but different tuning methods. We find that reinforcement
learning (RL)-tuned models generalize well across domains, while supervised
fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space
representation and token-space distribution shift analyses reveal that SFT
induces substantial representation and output drift, while RL preserves
general-domain structure. Our results suggest a need to rethink standard
post-training recipes, particularly the reliance on SFT-distilled data for
advancing reasoning models.