Limites da Generalização em RLVR: Dois Estudos de Caso em Raciocínio Matemático
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
October 30, 2025
Autores: Md Tanvirul Alam, Nidhi Rastogi
cs.AI
Resumo
O raciocínio matemático é um desafio central para os grandes modelos de linguagem (LLMs), exigindo não apenas respostas corretas, mas também processos de raciocínio fiéis. O Reforço de Aprendizagem com Recompensas Verificáveis (RLVR) surgiu como uma abordagem promissora para aprimorar tais capacidades; no entanto, a sua capacidade de promover um raciocínio genuíno permanece pouco clara. Investigamos o RLVR em dois problemas combinatórios com soluções totalmente verificáveis: Agendamento de Atividades e a Subsequência Crescente Mais Longa, utilizando conjuntos de dados criteriosamente curados com ótimos únicos. Através de múltiplos desenhos de recompensa, descobrimos que o RLVR melhora as métricas de avaliação, mas frequentemente ao reforçar heurísticas superficiais em vez de adquirir novas estratégias de raciocínio. Estes resultados destacam os limites da generalização do RLVR, enfatizando a importância de benchmarks que separem o raciocínio matemático genuíno da exploração de atalhos e forneçam medidas fiáveis de progresso. Código disponível em https://github.com/xashru/rlvr-seq-generalization.
English
Mathematical reasoning is a central challenge for large language models
(LLMs), requiring not only correct answers but also faithful reasoning
processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as
a promising approach for enhancing such capabilities; however, its ability to
foster genuine reasoning remains unclear. We investigate RLVR on two
combinatorial problems with fully verifiable solutions: Activity
Scheduling and the Longest Increasing Subsequence, using carefully
curated datasets with unique optima. Across multiple reward designs, we find
that RLVR improves evaluation metrics but often by reinforcing superficial
heuristics rather than acquiring new reasoning strategies. These findings
highlight the limits of RLVR generalization, emphasizing the importance of
benchmarks that disentangle genuine mathematical reasoning from shortcut
exploitation and provide faithful measures of progress. Code available at
https://github.com/xashru/rlvr-seq-generalization.