Grenzen der Generalisierung in RLVR: Zwei Fallstudien im mathematischen Denken

papers.abstract

Mathematisches Denken ist eine zentrale Herausforderung für große Sprachmodelle (LLMs), die nicht nur korrekte Antworten, sondern auch nachvollziehbare Denkprozesse erfordert. Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat sich als vielversprechender Ansatz zur Verbesserung dieser Fähigkeiten erwiesen; jedoch bleibt seine Fähigkeit, echtes logisches Denken zu fördern, unklar. Wir untersuchen RLVR anhand zweier kombinatorischer Probleme mit vollständig verifizierbaren Lösungen: Aktivitätsplanung und der längsten aufsteigenden Teilfolge, unter Verwendung sorgfältig kuratierter Datensätze mit eindeutigen Optima. Über mehrere Belohnungsdesigns hinweg stellen wir fest, dass RLVR die Evaluationsmetriken verbessert, jedoch häufig durch die Verstärkung oberflächlicher Heuristiken und nicht durch den Erwerb neuer Denkstrategien. Diese Ergebnisse unterstreichen die Grenzen der RLVR-Generalisierung und betonen die Bedeutung von Benchmarks, die echtes mathematisches Denken von der Ausnutzung von Abkürzungen entkoppeln und verlässliche Maßstäbe für Fortschritte liefern. Code verfügbar unter https://github.com/xashru/rlvr-seq-generalization.

English

Mathematical reasoning is a central challenge for large language models (LLMs), requiring not only correct answers but also faithful reasoning processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising approach for enhancing such capabilities; however, its ability to foster genuine reasoning remains unclear. We investigate RLVR on two combinatorial problems with fully verifiable solutions: Activity Scheduling and the Longest Increasing Subsequence, using carefully curated datasets with unique optima. Across multiple reward designs, we find that RLVR improves evaluation metrics but often by reinforcing superficial heuristics rather than acquiring new reasoning strategies. These findings highlight the limits of RLVR generalization, emphasizing the importance of benchmarks that disentangle genuine mathematical reasoning from shortcut exploitation and provide faithful measures of progress. Code available at https://github.com/xashru/rlvr-seq-generalization.

Grenzen der Generalisierung in RLVR: Zwei Fallstudien im mathematischen Denken

Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

papers.abstract

Support