ChatPaper.aiChatPaper

Улучшает ли математическое рассуждение общие способности языковых моделей? Изучение переносимости рассуждений в языковых моделях

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

July 1, 2025
Авторы: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI

Аннотация

Математические рассуждения стали символом прогресса в больших языковых моделях (LLM), где новые модели быстро превосходят человеческий уровень на бенчмарках, таких как MATH и AIME. Однако, по мере того как рейтинги в математике улучшаются каждую неделю, возникает вопрос: отражают ли эти успехи более широкие способности к решению задач или же это лишь узкая переобученность? Чтобы ответить на этот вопрос, мы оцениваем более 20 открытых моделей, настроенных на рассуждения, на широком наборе задач, включая математику, научные вопросы, планирование агентов, программирование и стандартное выполнение инструкций. Удивительно, но мы обнаруживаем, что большинство моделей, успешных в математике, не переносят свои достижения в другие области. Для тщательного изучения этого явления мы проводим контролируемые эксперименты на моделях Qwen3-14B, используя только математические данные, но разные методы настройки. Мы выясняем, что модели, настроенные с помощью обучения с подкреплением (RL), хорошо обобщаются в различных областях, в то время как модели, настроенные с помощью контролируемого тонкого обучения (SFT), часто теряют общие способности. Анализ сдвигов в латентном пространстве и распределении токенов показывает, что SFT вызывает значительный дрейф представлений и выходных данных, тогда как RL сохраняет структуру общих областей. Наши результаты указывают на необходимость пересмотра стандартных подходов к пост-обучению, особенно зависимости от данных, дистиллированных с помощью SFT, для продвижения моделей рассуждений.
English
Math reasoning has become the poster child of progress in large language models (LLMs), with new models rapidly surpassing human-level performance on benchmarks like MATH and AIME. But as math leaderboards improve week by week, it is worth asking: do these gains reflect broader problem-solving ability or just narrow overfitting? To answer this question, we evaluate over 20 open-weight reasoning-tuned models across a broad suite of tasks, including math, scientific QA, agent planning, coding, and standard instruction-following. We surprisingly find that most models that succeed in math fail to transfer their gains to other domains. To rigorously study this phenomenon, we conduct controlled experiments on Qwen3-14B models using math-only data but different tuning methods. We find that reinforcement learning (RL)-tuned models generalize well across domains, while supervised fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space representation and token-space distribution shift analyses reveal that SFT induces substantial representation and output drift, while RL preserves general-domain structure. Our results suggest a need to rethink standard post-training recipes, particularly the reliance on SFT-distilled data for advancing reasoning models.
PDF412July 2, 2025