Verbessert mathematisches Denken die allgemeinen Fähigkeiten von LLMs? Untersuchung der Übertragbarkeit von LLM-Denkprozessen
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
July 1, 2025
Autoren: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI
Zusammenfassung
Mathematisches Denken ist zum Aushängeschild des Fortschritts bei großen Sprachmodellen (LLMs) geworden, wobei neue Modelle auf Benchmarks wie MATH und AIME schnell menschliche Leistungsniveaus übertreffen. Doch während sich die Bestenlisten im Bereich Mathematik Woche für Woche verbessern, stellt sich die Frage: spiegeln diese Fortschritte eine breitere Problemlösungsfähigkeit wider oder handelt es sich lediglich um enges Overfitting? Um diese Frage zu beantworten, evaluieren wir über 20 Open-Weight-Modelle, die auf logisches Denken abgestimmt sind, anhand einer breiten Palette von Aufgaben, darunter Mathematik, wissenschaftliche Frage-Antwort-Systeme, Agentenplanung, Programmierung und standardmäßige Anweisungsbefolgung. Überraschenderweise stellen wir fest, dass die meisten Modelle, die in Mathematik erfolgreich sind, ihre Fortschritte nicht auf andere Domänen übertragen können. Um dieses Phänomen rigoros zu untersuchen, führen wir kontrollierte Experimente mit Qwen3-14B-Modellen durch, die ausschließlich mathematische Daten, aber unterschiedliche Abstimmungsmethoden verwenden. Wir stellen fest, dass Modelle, die mit Reinforcement Learning (RL) abgestimmt wurden, gut über Domänen hinweg generalisieren, während Modelle, die mit Supervised Fine-Tuning (SFT) abgestimmt wurden, oft allgemeine Fähigkeiten vergessen. Analysen von latenten Raumdarstellungen und Token-Raumverteilungsverschiebungen zeigen, dass SFT erhebliche Darstellungs- und Ausgabeverschiebungen verursacht, während RL die allgemeine Domänenstruktur bewahrt. Unsere Ergebnisse deuten darauf hin, dass es notwendig ist, die Standard-Rezepte für das Post-Training zu überdenken, insbesondere die Abhängigkeit von SFT-distillierten Daten zur Weiterentwicklung von Modellen für logisches Denken.
English
Math reasoning has become the poster child of progress in large language
models (LLMs), with new models rapidly surpassing human-level performance on
benchmarks like MATH and AIME. But as math leaderboards improve week by week,
it is worth asking: do these gains reflect broader problem-solving ability or
just narrow overfitting? To answer this question, we evaluate over 20
open-weight reasoning-tuned models across a broad suite of tasks, including
math, scientific QA, agent planning, coding, and standard
instruction-following. We surprisingly find that most models that succeed in
math fail to transfer their gains to other domains. To rigorously study this
phenomenon, we conduct controlled experiments on Qwen3-14B models using
math-only data but different tuning methods. We find that reinforcement
learning (RL)-tuned models generalize well across domains, while supervised
fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space
representation and token-space distribution shift analyses reveal that SFT
induces substantial representation and output drift, while RL preserves
general-domain structure. Our results suggest a need to rethink standard
post-training recipes, particularly the reliance on SFT-distilled data for
advancing reasoning models.