Le raisonnement mathématique améliore-t-il les capacités générales des LLM ? Comprendre la transférabilité du raisonnement des LLM
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
July 1, 2025
Auteurs: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI
Résumé
Le raisonnement mathématique est devenu l'emblème des progrès des grands modèles de langage (LLMs), avec de nouveaux modèles surpassant rapidement les performances humaines sur des benchmarks comme MATH et AIME. Mais alors que les classements en mathématiques s'améliorent de semaine en semaine, il est légitime de se demander : ces gains reflètent-ils une capacité de résolution de problèmes plus large ou simplement un surajustement étroit ? Pour répondre à cette question, nous évaluons plus de 20 modèles à poids ouvert spécialisés dans le raisonnement sur un large éventail de tâches, incluant les mathématiques, les questions-réponses scientifiques, la planification d'agents, le codage et le suivi d'instructions standard. Nous constatons, de manière surprenante, que la plupart des modèles qui réussissent en mathématiques ne parviennent pas à transférer leurs gains à d'autres domaines. Pour étudier rigoureusement ce phénomène, nous menons des expériences contrôlées sur les modèles Qwen3-14B en utilisant des données exclusivement mathématiques mais avec différentes méthodes de réglage. Nous découvrons que les modèles ajustés par apprentissage par renforcement (RL) généralisent bien à travers les domaines, tandis que les modèles ajustés par apprentissage supervisé (SFT) oublient souvent leurs capacités générales. Des analyses des représentations dans l'espace latent et des distributions dans l'espace des tokens révèlent que le SFT induit des dérives substantielles dans les représentations et les sorties, tandis que le RL préserve la structure générale du domaine. Nos résultats suggèrent la nécessité de repenser les recettes standard de post-formation, en particulier la dépendance aux données distillées par SFT pour faire progresser les modèles de raisonnement.
English
Math reasoning has become the poster child of progress in large language
models (LLMs), with new models rapidly surpassing human-level performance on
benchmarks like MATH and AIME. But as math leaderboards improve week by week,
it is worth asking: do these gains reflect broader problem-solving ability or
just narrow overfitting? To answer this question, we evaluate over 20
open-weight reasoning-tuned models across a broad suite of tasks, including
math, scientific QA, agent planning, coding, and standard
instruction-following. We surprisingly find that most models that succeed in
math fail to transfer their gains to other domains. To rigorously study this
phenomenon, we conduct controlled experiments on Qwen3-14B models using
math-only data but different tuning methods. We find that reinforcement
learning (RL)-tuned models generalize well across domains, while supervised
fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space
representation and token-space distribution shift analyses reveal that SFT
induces substantial representation and output drift, while RL preserves
general-domain structure. Our results suggest a need to rethink standard
post-training recipes, particularly the reliance on SFT-distilled data for
advancing reasoning models.