O Raciocínio Matemático Melhora as Capacidades Gerais dos LLMs? Compreendendo a Transferibilidade do Raciocínio em LLMs
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
July 1, 2025
Autores: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI
Resumo
O raciocínio matemático tornou-se o exemplo emblemático do progresso em modelos de linguagem de grande escala (LLMs), com novos modelos superando rapidamente o desempenho humano em benchmarks como MATH e AIME. Mas, à medida que os rankings de matemática melhoram semana após semana, vale a pena perguntar: esses ganhos refletem uma capacidade mais ampla de resolução de problemas ou apenas um overfitting específico? Para responder a essa pergunta, avaliamos mais de 20 modelos de raciocínio ajustados e de pesos abertos em uma ampla gama de tarefas, incluindo matemática, questionamento científico, planejamento de agentes, codificação e seguimento de instruções padrão. Surpreendentemente, descobrimos que a maioria dos modelos que têm sucesso em matemática não consegue transferir seus ganhos para outros domínios. Para estudar rigorosamente esse fenômeno, conduzimos experimentos controlados em modelos Qwen3-14B usando apenas dados matemáticos, mas com diferentes métodos de ajuste. Descobrimos que os modelos ajustados com aprendizado por reforço (RL) generalizam bem entre domínios, enquanto os modelos ajustados com fine-tuning supervisionado (SFT) frequentemente esquecem capacidades gerais. Análises de representação no espaço latente e de deslocamento de distribuição no espaço de tokens revelam que o SFT induz um desvio substancial na representação e na saída, enquanto o RL preserva a estrutura do domínio geral. Nossos resultados sugerem a necessidade de repensar as abordagens padrão de pós-treinamento, particularmente a dependência de dados destilados por SFT para avançar modelos de raciocínio.
English
Math reasoning has become the poster child of progress in large language
models (LLMs), with new models rapidly surpassing human-level performance on
benchmarks like MATH and AIME. But as math leaderboards improve week by week,
it is worth asking: do these gains reflect broader problem-solving ability or
just narrow overfitting? To answer this question, we evaluate over 20
open-weight reasoning-tuned models across a broad suite of tasks, including
math, scientific QA, agent planning, coding, and standard
instruction-following. We surprisingly find that most models that succeed in
math fail to transfer their gains to other domains. To rigorously study this
phenomenon, we conduct controlled experiments on Qwen3-14B models using
math-only data but different tuning methods. We find that reinforcement
learning (RL)-tuned models generalize well across domains, while supervised
fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space
representation and token-space distribution shift analyses reveal that SFT
induces substantial representation and output drift, while RL preserves
general-domain structure. Our results suggest a need to rethink standard
post-training recipes, particularly the reliance on SFT-distilled data for
advancing reasoning models.