Grenzen der Generalisierung in RLVR: Zwei Fallstudien im mathematischen Denken
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
October 30, 2025
papers.authors: Md Tanvirul Alam, Nidhi Rastogi
cs.AI
papers.abstract
Mathematisches Denken ist eine zentrale Herausforderung für große Sprachmodelle (LLMs), die nicht nur korrekte Antworten, sondern auch nachvollziehbare Denkprozesse erfordert. Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat sich als vielversprechender Ansatz zur Verbesserung dieser Fähigkeiten erwiesen; jedoch bleibt seine Fähigkeit, echtes logisches Denken zu fördern, unklar. Wir untersuchen RLVR anhand zweier kombinatorischer Probleme mit vollständig verifizierbaren Lösungen: Aktivitätsplanung und der längsten aufsteigenden Teilfolge, unter Verwendung sorgfältig kuratierter Datensätze mit eindeutigen Optima. Über mehrere Belohnungsdesigns hinweg stellen wir fest, dass RLVR die Evaluationsmetriken verbessert, jedoch häufig durch die Verstärkung oberflächlicher Heuristiken und nicht durch den Erwerb neuer Denkstrategien. Diese Ergebnisse unterstreichen die Grenzen der RLVR-Generalisierung und betonen die Bedeutung von Benchmarks, die echtes mathematisches Denken von der Ausnutzung von Abkürzungen entkoppeln und verlässliche Maßstäbe für Fortschritte liefern. Code verfügbar unter https://github.com/xashru/rlvr-seq-generalization.
English
Mathematical reasoning is a central challenge for large language models
(LLMs), requiring not only correct answers but also faithful reasoning
processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as
a promising approach for enhancing such capabilities; however, its ability to
foster genuine reasoning remains unclear. We investigate RLVR on two
combinatorial problems with fully verifiable solutions: Activity
Scheduling and the Longest Increasing Subsequence, using carefully
curated datasets with unique optima. Across multiple reward designs, we find
that RLVR improves evaluation metrics but often by reinforcing superficial
heuristics rather than acquiring new reasoning strategies. These findings
highlight the limits of RLVR generalization, emphasizing the importance of
benchmarks that disentangle genuine mathematical reasoning from shortcut
exploitation and provide faithful measures of progress. Code available at
https://github.com/xashru/rlvr-seq-generalization.