¿Mejora el razonamiento matemático las capacidades generales de los LLM? Comprendiendo la transferibilidad del razonamiento en LLM
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
July 1, 2025
Autores: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI
Resumen
El razonamiento matemático se ha convertido en el estandarte del progreso en los modelos de lenguaje de gran escala (LLMs), con nuevos modelos superando rápidamente el rendimiento humano en benchmarks como MATH y AIME. Pero a medida que los rankings de matemáticas mejoran semana tras semana, vale la pena preguntarse: ¿estas mejoras reflejan una capacidad más amplia para resolver problemas o simplemente un sobreajuste específico? Para responder a esta pregunta, evaluamos más de 20 modelos de razonamiento ajustados y de código abierto en una amplia gama de tareas, incluyendo matemáticas, preguntas y respuestas científicas, planificación de agentes, programación y seguimiento de instrucciones estándar. Sorprendentemente, encontramos que la mayoría de los modelos que tienen éxito en matemáticas no logran transferir sus avances a otros dominios. Para estudiar rigurosamente este fenómeno, realizamos experimentos controlados en modelos Qwen3-14B utilizando únicamente datos matemáticos pero con diferentes métodos de ajuste. Descubrimos que los modelos ajustados con aprendizaje por refuerzo (RL) generalizan bien en varios dominios, mientras que los modelos ajustados con fine-tuning supervisado (SFT) a menudo olvidan capacidades generales. Los análisis de representación en el espacio latente y de cambios en la distribución del espacio de tokens revelan que el SFT induce un desplazamiento sustancial en las representaciones y salidas, mientras que el RL preserva la estructura del dominio general. Nuestros resultados sugieren la necesidad de reconsiderar las recetas estándar de post-entrenamiento, particularmente la dependencia de datos destilados mediante SFT para avanzar en modelos de razonamiento.
English
Math reasoning has become the poster child of progress in large language
models (LLMs), with new models rapidly surpassing human-level performance on
benchmarks like MATH and AIME. But as math leaderboards improve week by week,
it is worth asking: do these gains reflect broader problem-solving ability or
just narrow overfitting? To answer this question, we evaluate over 20
open-weight reasoning-tuned models across a broad suite of tasks, including
math, scientific QA, agent planning, coding, and standard
instruction-following. We surprisingly find that most models that succeed in
math fail to transfer their gains to other domains. To rigorously study this
phenomenon, we conduct controlled experiments on Qwen3-14B models using
math-only data but different tuning methods. We find that reinforcement
learning (RL)-tuned models generalize well across domains, while supervised
fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space
representation and token-space distribution shift analyses reveal that SFT
induces substantial representation and output drift, while RL preserves
general-domain structure. Our results suggest a need to rethink standard
post-training recipes, particularly the reliance on SFT-distilled data for
advancing reasoning models.