ChatPaper.aiChatPaper

Limites de la généralisation dans RLVR : deux études de cas en raisonnement mathématique

Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

October 30, 2025
papers.authors: Md Tanvirul Alam, Nidhi Rastogi
cs.AI

papers.abstract

Le raisonnement mathématique représente un défi majeur pour les grands modèles de langage (LLM), nécessitant non seulement des réponses correctes mais aussi des processus de raisonnement fidèles. Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) est apparu comme une approche prometteuse pour améliorer ces capacités ; cependant, sa capacité à favoriser un raisonnement authentique reste incertaine. Nous étudions RLVR sur deux problèmes combinatoires avec des solutions entièrement vérifiables : la Planification d'Activités et la Sous-Suite Croissante la Plus Longue, en utilisant des ensembles de données soigneusement constitués avec des optimums uniques. À travers plusieurs conceptions de récompenses, nous constatons que RLVR améliore les métriques d'évaluation mais souvent en renforçant des heuristiques superficielles plutôt qu'en acquérant de nouvelles stratégies de raisonnement. Ces résultats soulignent les limites de la généralisation de RLVR, en mettant l'accent sur l'importance de benchmarks qui distinguent le raisonnement mathématique authentique de l'exploitation de raccourcis et fournissent des mesures fidèles des progrès. Code disponible à l'adresse https://github.com/xashru/rlvr-seq-generalization.
English
Mathematical reasoning is a central challenge for large language models (LLMs), requiring not only correct answers but also faithful reasoning processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising approach for enhancing such capabilities; however, its ability to foster genuine reasoning remains unclear. We investigate RLVR on two combinatorial problems with fully verifiable solutions: Activity Scheduling and the Longest Increasing Subsequence, using carefully curated datasets with unique optima. Across multiple reward designs, we find that RLVR improves evaluation metrics but often by reinforcing superficial heuristics rather than acquiring new reasoning strategies. These findings highlight the limits of RLVR generalization, emphasizing the importance of benchmarks that disentangle genuine mathematical reasoning from shortcut exploitation and provide faithful measures of progress. Code available at https://github.com/xashru/rlvr-seq-generalization.
PDF51December 2, 2025