ChatPaper.aiChatPaper

Невидимый поводок: почему RLVR, возможно, не сможет выйти за пределы своего происхождения

The Invisible Leash: Why RLVR May Not Escape Its Origin

July 20, 2025
Авторы: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI

Аннотация

Недавние достижения в области крупных моделей рассуждений подчеркивают обучение с подкреплением с верифицируемыми наградами (RLVR) как перспективный метод для расширения возможностей ИИ, особенно в решении сложных логических задач. Однако остается неясным, действительно ли RLVR расширяет границы рассуждений модели или просто усиливает высокооцененные выходы, которые базовая модель уже знает, для повышения точности. В данном исследовании представлен теоретический и эмпирический анализ, который дает новые представления о потенциальных ограничениях RLVR. Во-первых, мы предлагаем новую теоретическую перспективу, согласно которой RLVR ограничен поддержкой базовой модели — неспособностью выбирать решения с нулевой начальной вероятностью — и действует как консервативный механизм перевзвешивания, который может ограничивать открытие совершенно оригинальных решений. Мы также выявляем компромисс между энтропией и наградой: хотя RLVR надежно повышает точность, он может постепенно сужать исследование и потенциально упускать правильные, но недостаточно представленные решения. Обширные эмпирические эксперименты подтверждают, что, хотя RLVR последовательно улучшает показатель pass@1, сокращение эмпирической поддержки, как правило, перевешивает ее расширение при больших бюджетах выборки, что приводит к невозможности восстановить правильные ответы, которые ранее были доступны базовой модели. Интересно, что мы также наблюдаем, что, хотя RLVR иногда увеличивает энтропию на уровне токенов, что приводит к большей неопределенности на каждом шаге генерации, энтропия на уровне ответов снижается, что указывает на то, что эти, казалось бы, более неопределенные пути в конечном итоге сходятся к меньшему набору различных ответов. В совокупности эти результаты выявляют потенциальные ограничения RLVR в расширении горизонтов рассуждений. Преодоление этой невидимой привязи может потребовать будущих алгоритмических инноваций, таких как явные механизмы исследования или гибридные стратегии, которые распределяют вероятностную массу в недостаточно представленные области решений.
English
Recent advances in large reasoning models highlight Reinforcement Learning with Verifiable Rewards (RLVR) as a promising method for enhancing AI's capabilities, particularly in solving complex logical tasks. However, it remains unclear whether RLVR truly expands a model's reasoning boundary or merely amplifies high-reward outputs that the base model already knows for improved precision. This study presents a theoretical and empirical investigation that provides fresh insights into the potential limits of RLVR. First, we offer a new theoretical perspective that RLVR is constrained by the base model's support-unable to sample solutions with zero initial probability-and operates as a conservative reweighting mechanism that may restrict the discovery of entirely original solutions. We also identify an entropy-reward tradeoff: while RLVR reliably enhances precision, it may progressively narrow exploration and potentially overlook correct yet underrepresented solutions. Extensive empirical experiments validate that while RLVR consistently improves pass@1, the shrinkage of empirical support generally outweighs the expansion of empirical support under larger sampling budgets, failing to recover correct answers that were previously accessible to the base model. Interestingly, we also observe that while RLVR sometimes increases token-level entropy, resulting in greater uncertainty at each generation step, answer-level entropy declines, indicating that these seemingly more uncertain paths ultimately converge onto a smaller set of distinct answers. Taken together, these findings reveal potential limits of RLVR in extending reasoning horizons. Breaking this invisible leash may require future algorithmic innovations such as explicit exploration mechanisms or hybrid strategies that seed probability mass into underrepresented solution regions.
PDF839July 22, 2025