RLPR: Extrapolation von RLVR auf allgemeine Domänen ohne Verifizierer
RLPR: Extrapolating RLVR to General Domains without Verifiers
June 23, 2025
Autoren: Tianyu Yu, Bo Ji, Shouli Wang, Shu Yao, Zefan Wang, Ganqu Cui, Lifan Yuan, Ning Ding, Yuan Yao, Zhiyuan Liu, Maosong Sun, Tat-Seng Chua
cs.AI
Zusammenfassung
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zeigt vielversprechendes Potenzial bei der Verbesserung der Fähigkeiten von LLMs (Large Language Models) im Bereich des logischen Denkens. Der Erfolg bleibt jedoch weitgehend auf mathematische und Programmierdomänen beschränkt. Diese primäre Einschränkung ergibt sich aus der starken Abhängigkeit von domänenspezifischen Verifizierern, was zu einer prohibitiv hohen Komplexität und begrenzten Skalierbarkeit führt. Um diese Herausforderung zu bewältigen, liegt unsere zentrale Beobachtung darin, dass die intrinsische Wahrscheinlichkeit eines LLMs, eine korrekte freiformulierte Antwort zu generieren, direkt seine eigene Bewertung der Belohnung für den Denkprozess widerspiegelt (d. h., wie gut der Denkprozess zur korrekten Antwort führt). Aufbauend auf dieser Erkenntnis schlagen wir RLPR vor, ein einfaches, verifiziererfreies Framework, das RLVR auf breitere allgemeine Domänen ausweitet. RLPR verwendet die Token-Wahrscheinlichkeitswerte des LLMs für Referenzantworten als Belohnungssignal und maximiert die erwartete Belohnung während des Trainings. Wir stellen fest, dass die Bewältigung der hohen Varianz dieses verrauschten Wahrscheinlichkeits-Belohnungssignals entscheidend ist, um es zum Funktionieren zu bringen, und schlagen prob-to-reward- und Stabilisierungsmethoden vor, um eine präzise und stabile Belohnung aus den intrinsischen Wahrscheinlichkeiten des LLMs sicherzustellen. Umfassende Experimente in vier allgemeinen Benchmark-Domänen und drei mathematischen Benchmarks zeigen, dass RLPR die Denkfähigkeiten in beiden Bereichen für Gemma-, Llama- und Qwen-basierte Modelle konsequent verbessert. Bemerkenswerterweise übertrifft RLPR das konkurrierende VeriFree um 7,6 Punkte auf TheoremQA und 7,5 Punkte auf Minerva und übertrifft sogar starke verifiziererabhängige Ansätze wie General-Reasoner um durchschnittlich 1,6 Punkte über sieben Benchmarks hinweg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) demonstrates promising
potential in advancing the reasoning capabilities of LLMs. However, its success
remains largely confined to mathematical and code domains. This primary
limitation stems from the heavy reliance on domain-specific verifiers, which
results in prohibitive complexity and limited scalability. To address the
challenge, our key observation is that LLM's intrinsic probability of
generating a correct free-form answer directly indicates its own evaluation of
the reasoning reward (i.e., how well the reasoning process leads to the correct
answer). Building on this insight, we propose RLPR, a simple verifier-free
framework that extrapolates RLVR to broader general domains. RLPR uses the
LLM's own token probability scores for reference answers as the reward signal
and maximizes the expected reward during training. We find that addressing the
high variance of this noisy probability reward is crucial to make it work, and
propose prob-to-reward and stabilizing methods to ensure a precise and stable
reward from LLM intrinsic probabilities. Comprehensive experiments in four
general-domain benchmarks and three mathematical benchmarks show that RLPR
consistently improves reasoning capabilities in both areas for Gemma, Llama,
and Qwen based models. Notably, RLPR outperforms concurrent VeriFree by 7.6
points on TheoremQA and 7.5 points on Minerva, and even surpasses strong
verifier-model-dependent approaches General-Reasoner by 1.6 average points
across seven benchmarks.