¿Mejora el razonamiento matemático las capacidades generales de los LLM? Comprendiendo la transferibilidad del razonamiento en LLM

Resumen

El razonamiento matemático se ha convertido en el estandarte del progreso en los modelos de lenguaje de gran escala (LLMs), con nuevos modelos superando rápidamente el rendimiento humano en benchmarks como MATH y AIME. Pero a medida que los rankings de matemáticas mejoran semana tras semana, vale la pena preguntarse: ¿estas mejoras reflejan una capacidad más amplia para resolver problemas o simplemente un sobreajuste específico? Para responder a esta pregunta, evaluamos más de 20 modelos de razonamiento ajustados y de código abierto en una amplia gama de tareas, incluyendo matemáticas, preguntas y respuestas científicas, planificación de agentes, programación y seguimiento de instrucciones estándar. Sorprendentemente, encontramos que la mayoría de los modelos que tienen éxito en matemáticas no logran transferir sus avances a otros dominios. Para estudiar rigurosamente este fenómeno, realizamos experimentos controlados en modelos Qwen3-14B utilizando únicamente datos matemáticos pero con diferentes métodos de ajuste. Descubrimos que los modelos ajustados con aprendizaje por refuerzo (RL) generalizan bien en varios dominios, mientras que los modelos ajustados con fine-tuning supervisado (SFT) a menudo olvidan capacidades generales. Los análisis de representación en el espacio latente y de cambios en la distribución del espacio de tokens revelan que el SFT induce un desplazamiento sustancial en las representaciones y salidas, mientras que el RL preserva la estructura del dominio general. Nuestros resultados sugieren la necesidad de reconsiderar las recetas estándar de post-entrenamiento, particularmente la dependencia de datos destilados mediante SFT para avanzar en modelos de razonamiento.

English

Math reasoning has become the poster child of progress in large language models (LLMs), with new models rapidly surpassing human-level performance on benchmarks like MATH and AIME. But as math leaderboards improve week by week, it is worth asking: do these gains reflect broader problem-solving ability or just narrow overfitting? To answer this question, we evaluate over 20 open-weight reasoning-tuned models across a broad suite of tasks, including math, scientific QA, agent planning, coding, and standard instruction-following. We surprisingly find that most models that succeed in math fail to transfer their gains to other domains. To rigorously study this phenomenon, we conduct controlled experiments on Qwen3-14B models using math-only data but different tuning methods. We find that reinforcement learning (RL)-tuned models generalize well across domains, while supervised fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space representation and token-space distribution shift analyses reveal that SFT induces substantial representation and output drift, while RL preserves general-domain structure. Our results suggest a need to rethink standard post-training recipes, particularly the reliance on SFT-distilled data for advancing reasoning models.

¿Mejora el razonamiento matemático las capacidades generales de los LLM? Comprendiendo la transferibilidad del razonamiento en LLM

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

Resumen

Support