Le raisonnement mathématique améliore-t-il les capacités générales des LLM ? Comprendre la transférabilité du raisonnement des LLM

Résumé

Le raisonnement mathématique est devenu l'emblème des progrès des grands modèles de langage (LLMs), avec de nouveaux modèles surpassant rapidement les performances humaines sur des benchmarks comme MATH et AIME. Mais alors que les classements en mathématiques s'améliorent de semaine en semaine, il est légitime de se demander : ces gains reflètent-ils une capacité de résolution de problèmes plus large ou simplement un surajustement étroit ? Pour répondre à cette question, nous évaluons plus de 20 modèles à poids ouvert spécialisés dans le raisonnement sur un large éventail de tâches, incluant les mathématiques, les questions-réponses scientifiques, la planification d'agents, le codage et le suivi d'instructions standard. Nous constatons, de manière surprenante, que la plupart des modèles qui réussissent en mathématiques ne parviennent pas à transférer leurs gains à d'autres domaines. Pour étudier rigoureusement ce phénomène, nous menons des expériences contrôlées sur les modèles Qwen3-14B en utilisant des données exclusivement mathématiques mais avec différentes méthodes de réglage. Nous découvrons que les modèles ajustés par apprentissage par renforcement (RL) généralisent bien à travers les domaines, tandis que les modèles ajustés par apprentissage supervisé (SFT) oublient souvent leurs capacités générales. Des analyses des représentations dans l'espace latent et des distributions dans l'espace des tokens révèlent que le SFT induit des dérives substantielles dans les représentations et les sorties, tandis que le RL préserve la structure générale du domaine. Nos résultats suggèrent la nécessité de repenser les recettes standard de post-formation, en particulier la dépendance aux données distillées par SFT pour faire progresser les modèles de raisonnement.

English

Math reasoning has become the poster child of progress in large language models (LLMs), with new models rapidly surpassing human-level performance on benchmarks like MATH and AIME. But as math leaderboards improve week by week, it is worth asking: do these gains reflect broader problem-solving ability or just narrow overfitting? To answer this question, we evaluate over 20 open-weight reasoning-tuned models across a broad suite of tasks, including math, scientific QA, agent planning, coding, and standard instruction-following. We surprisingly find that most models that succeed in math fail to transfer their gains to other domains. To rigorously study this phenomenon, we conduct controlled experiments on Qwen3-14B models using math-only data but different tuning methods. We find that reinforcement learning (RL)-tuned models generalize well across domains, while supervised fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space representation and token-space distribution shift analyses reveal that SFT induces substantial representation and output drift, while RL preserves general-domain structure. Our results suggest a need to rethink standard post-training recipes, particularly the reliance on SFT-distilled data for advancing reasoning models.

Le raisonnement mathématique améliore-t-il les capacités générales des LLM ? Comprendre la transférabilité du raisonnement des LLM

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

Résumé

Support