ChatPaper.aiChatPaper

A Coleira Invisível: Por que o RLVR Pode Não Escapar de Sua Origem

The Invisible Leash: Why RLVR May Not Escape Its Origin

July 20, 2025
Autores: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI

Resumo

Avanços recentes em modelos de raciocínio em larga escala destacam o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) como um método promissor para aprimorar as capacidades da IA, particularmente na resolução de tarefas lógicas complexas. No entanto, ainda não está claro se o RLVR realmente expande os limites de raciocínio de um modelo ou apenas amplifica as saídas de alta recompensa que o modelo base já conhece, melhorando a precisão. Este estudo apresenta uma investigação teórica e empírica que oferece novos insights sobre os limites potenciais do RLVR. Primeiro, oferecemos uma nova perspectiva teórica de que o RLVR é limitado pelo suporte do modelo base - incapaz de amostrar soluções com probabilidade inicial zero - e opera como um mecanismo de reajuste conservador que pode restringir a descoberta de soluções completamente originais. Também identificamos uma troca entre entropia e recompensa: embora o RLVR melhore consistentemente a precisão, ele pode progressivamente estreitar a exploração e potencialmente ignorar soluções corretas, porém sub-representadas. Experimentos empíricos extensivos validam que, embora o RLVR melhore consistentemente o pass@1, a redução do suporte empírico geralmente supera a expansão do suporte empírico sob orçamentos de amostragem maiores, falhando em recuperar respostas corretas que eram anteriormente acessíveis ao modelo base. Curiosamente, também observamos que, embora o RLVR às vezes aumente a entropia no nível de tokens, resultando em maior incerteza em cada etapa de geração, a entropia no nível de respostas diminui, indicando que esses caminhos aparentemente mais incertos acabam convergindo para um conjunto menor de respostas distintas. Em conjunto, essas descobertas revelam limites potenciais do RLVR na extensão dos horizontes de raciocínio. Romper essa coleira invisível pode exigir inovações algorítmicas futuras, como mecanismos de exploração explícitos ou estratégias híbridas que distribuam massa de probabilidade em regiões de soluções sub-representadas.
English
Recent advances in large reasoning models highlight Reinforcement Learning with Verifiable Rewards (RLVR) as a promising method for enhancing AI's capabilities, particularly in solving complex logical tasks. However, it remains unclear whether RLVR truly expands a model's reasoning boundary or merely amplifies high-reward outputs that the base model already knows for improved precision. This study presents a theoretical and empirical investigation that provides fresh insights into the potential limits of RLVR. First, we offer a new theoretical perspective that RLVR is constrained by the base model's support-unable to sample solutions with zero initial probability-and operates as a conservative reweighting mechanism that may restrict the discovery of entirely original solutions. We also identify an entropy-reward tradeoff: while RLVR reliably enhances precision, it may progressively narrow exploration and potentially overlook correct yet underrepresented solutions. Extensive empirical experiments validate that while RLVR consistently improves pass@1, the shrinkage of empirical support generally outweighs the expansion of empirical support under larger sampling budgets, failing to recover correct answers that were previously accessible to the base model. Interestingly, we also observe that while RLVR sometimes increases token-level entropy, resulting in greater uncertainty at each generation step, answer-level entropy declines, indicating that these seemingly more uncertain paths ultimately converge onto a smaller set of distinct answers. Taken together, these findings reveal potential limits of RLVR in extending reasoning horizons. Breaking this invisible leash may require future algorithmic innovations such as explicit exploration mechanisms or hybrid strategies that seed probability mass into underrepresented solution regions.
PDF839July 22, 2025