ChatPaper.aiChatPaper

Il ragionamento matematico migliora le capacità generali dei modelli linguistici di grandi dimensioni? Comprendere la trasferibilità del ragionamento nei modelli linguistici di grandi dimensioni

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

July 1, 2025
Autori: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI

Abstract

Il ragionamento matematico è diventato il simbolo del progresso nei grandi modelli linguistici (LLM), con nuovi modelli che superano rapidamente le prestazioni umane su benchmark come MATH e AIME. Ma mentre le classifiche matematiche migliorano settimana dopo settimana, vale la pena chiedersi: questi progressi riflettono una più ampia capacità di risoluzione dei problemi o sono semplicemente un caso di overfitting ristretto? Per rispondere a questa domanda, valutiamo oltre 20 modelli open-weight ottimizzati per il ragionamento su un'ampia gamma di task, tra cui matematica, domande scientifiche, pianificazione di agenti, codifica e il classico seguimento di istruzioni. Sorprendentemente, scopriamo che la maggior parte dei modelli che eccellono in matematica non riescono a trasferire i loro progressi ad altri domini. Per studiare rigorosamente questo fenomeno, conduciamo esperimenti controllati sui modelli Qwen3-14B utilizzando dati esclusivamente matematici ma con diversi metodi di ottimizzazione. Scopriamo che i modelli ottimizzati con apprendimento per rinforzo (RL) generalizzano bene tra i domini, mentre i modelli ottimizzati con fine-tuning supervisionato (SFT) spesso perdono capacità generali. Analisi delle rappresentazioni nello spazio latente e degli spostamenti nella distribuzione dello spazio dei token rivelano che l'SFT induce sostanziali derivate nelle rappresentazioni e negli output, mentre l'RL preserva la struttura del dominio generale. I nostri risultati suggeriscono la necessità di ripensare le ricette standard di post-training, in particolare la dipendenza dai dati distillati tramite SFT per avanzare i modelli di ragionamento.
English
Math reasoning has become the poster child of progress in large language models (LLMs), with new models rapidly surpassing human-level performance on benchmarks like MATH and AIME. But as math leaderboards improve week by week, it is worth asking: do these gains reflect broader problem-solving ability or just narrow overfitting? To answer this question, we evaluate over 20 open-weight reasoning-tuned models across a broad suite of tasks, including math, scientific QA, agent planning, coding, and standard instruction-following. We surprisingly find that most models that succeed in math fail to transfer their gains to other domains. To rigorously study this phenomenon, we conduct controlled experiments on Qwen3-14B models using math-only data but different tuning methods. We find that reinforcement learning (RL)-tuned models generalize well across domains, while supervised fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space representation and token-space distribution shift analyses reveal that SFT induces substantial representation and output drift, while RL preserves general-domain structure. Our results suggest a need to rethink standard post-training recipes, particularly the reliance on SFT-distilled data for advancing reasoning models.
PDF532July 2, 2025