ChatPaper.aiChatPaper

Límites de la Generalización en RLVR: Dos Estudios de Caso en Razonamiento Matemático

Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

October 30, 2025
Autores: Md Tanvirul Alam, Nidhi Rastogi
cs.AI

Resumen

El razonamiento matemático constituye un desafío central para los modelos de lenguaje grandes (LLMs), ya que requiere no solo respuestas correctas, sino también procesos de razonamiento fiables. El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un enfoque prometedor para mejorar dichas capacidades; sin embargo, su capacidad para fomentar un razonamiento genuino sigue sin estar clara. Investigamos RLVR en dos problemas combinatorios con soluciones completamente verificables: Planificación de Actividades y la Subsecuencia Creciente Más Larga, utilizando conjuntos de datos cuidadosamente seleccionados con óptimos únicos. A través de múltiples diseños de recompensa, encontramos que RLVR mejora las métricas de evaluación, pero a menudo reforzando heurísticas superficiales en lugar de adquirir nuevas estrategias de razonamiento. Estos hallazgos resaltan los límites de la generalización de RLVR, enfatizando la importancia de benchmarks que disocien el razonamiento matemático genuino de la explotación de atajos y proporcionen medidas fiables del progreso. Código disponible en https://github.com/xashru/rlvr-seq-generalization.
English
Mathematical reasoning is a central challenge for large language models (LLMs), requiring not only correct answers but also faithful reasoning processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising approach for enhancing such capabilities; however, its ability to foster genuine reasoning remains unclear. We investigate RLVR on two combinatorial problems with fully verifiable solutions: Activity Scheduling and the Longest Increasing Subsequence, using carefully curated datasets with unique optima. Across multiple reward designs, we find that RLVR improves evaluation metrics but often by reinforcing superficial heuristics rather than acquiring new reasoning strategies. These findings highlight the limits of RLVR generalization, emphasizing the importance of benchmarks that disentangle genuine mathematical reasoning from shortcut exploitation and provide faithful measures of progress. Code available at https://github.com/xashru/rlvr-seq-generalization.
PDF51December 2, 2025