Limiti della Generalizzazione in RLVR: Due Casi di Studio sul Ragionamento Matematico
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
October 30, 2025
Autori: Md Tanvirul Alam, Nidhi Rastogi
cs.AI
Abstract
Il ragionamento matematico rappresenta una sfida centrale per i grandi modelli linguistici (LLM), richiedendo non solo risposte corrette ma anche processi di ragionamento fedeli. Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio promettente per potenziare tali capacità; tuttavia, la sua abilità di promuovere un ragionamento genuino rimane poco chiara. Investigiamo l'RLVR su due problemi combinatori con soluzioni completamente verificabili: Activity Scheduling e la Sottosequenza Crescente Più Lunga, utilizzando dataset accuratamente selezionati con ottimi unici. Attraverso molteplici progettazioni di ricompensa, scopriamo che l'RLVR migliora le metriche di valutazione, ma spesso rafforzando euristiche superficiali piuttosto che acquisendo nuove strategie di ragionamento. Questi risultati evidenziano i limiti della generalizzazione dell'RLVR, enfatizzando l'importanza di benchmark che separino il ragionamento matematico genuino dallo sfruttamento di scorciatoie e forniscano misure fedeli del progresso. Codice disponibile su https://github.com/xashru/rlvr-seq-generalization.
English
Mathematical reasoning is a central challenge for large language models
(LLMs), requiring not only correct answers but also faithful reasoning
processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as
a promising approach for enhancing such capabilities; however, its ability to
foster genuine reasoning remains unclear. We investigate RLVR on two
combinatorial problems with fully verifiable solutions: Activity
Scheduling and the Longest Increasing Subsequence, using carefully
curated datasets with unique optima. Across multiple reward designs, we find
that RLVR improves evaluation metrics but often by reinforcing superficial
heuristics rather than acquiring new reasoning strategies. These findings
highlight the limits of RLVR generalization, emphasizing the importance of
benchmarks that disentangle genuine mathematical reasoning from shortcut
exploitation and provide faithful measures of progress. Code available at
https://github.com/xashru/rlvr-seq-generalization.