RLPR: Extrapolation von RLVR auf allgemeine Domänen ohne Verifizierer

papers.abstract

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zeigt vielversprechendes Potenzial bei der Verbesserung der Fähigkeiten von LLMs (Large Language Models) im Bereich des logischen Denkens. Der Erfolg bleibt jedoch weitgehend auf mathematische und Programmierdomänen beschränkt. Diese primäre Einschränkung ergibt sich aus der starken Abhängigkeit von domänenspezifischen Verifizierern, was zu einer prohibitiv hohen Komplexität und begrenzten Skalierbarkeit führt. Um diese Herausforderung zu bewältigen, liegt unsere zentrale Beobachtung darin, dass die intrinsische Wahrscheinlichkeit eines LLMs, eine korrekte freiformulierte Antwort zu generieren, direkt seine eigene Bewertung der Belohnung für den Denkprozess widerspiegelt (d. h., wie gut der Denkprozess zur korrekten Antwort führt). Aufbauend auf dieser Erkenntnis schlagen wir RLPR vor, ein einfaches, verifiziererfreies Framework, das RLVR auf breitere allgemeine Domänen ausweitet. RLPR verwendet die Token-Wahrscheinlichkeitswerte des LLMs für Referenzantworten als Belohnungssignal und maximiert die erwartete Belohnung während des Trainings. Wir stellen fest, dass die Bewältigung der hohen Varianz dieses verrauschten Wahrscheinlichkeits-Belohnungssignals entscheidend ist, um es zum Funktionieren zu bringen, und schlagen prob-to-reward- und Stabilisierungsmethoden vor, um eine präzise und stabile Belohnung aus den intrinsischen Wahrscheinlichkeiten des LLMs sicherzustellen. Umfassende Experimente in vier allgemeinen Benchmark-Domänen und drei mathematischen Benchmarks zeigen, dass RLPR die Denkfähigkeiten in beiden Bereichen für Gemma-, Llama- und Qwen-basierte Modelle konsequent verbessert. Bemerkenswerterweise übertrifft RLPR das konkurrierende VeriFree um 7,6 Punkte auf TheoremQA und 7,5 Punkte auf Minerva und übertrifft sogar starke verifiziererabhängige Ansätze wie General-Reasoner um durchschnittlich 1,6 Punkte über sieben Benchmarks hinweg.

English

Reinforcement Learning with Verifiable Rewards (RLVR) demonstrates promising potential in advancing the reasoning capabilities of LLMs. However, its success remains largely confined to mathematical and code domains. This primary limitation stems from the heavy reliance on domain-specific verifiers, which results in prohibitive complexity and limited scalability. To address the challenge, our key observation is that LLM's intrinsic probability of generating a correct free-form answer directly indicates its own evaluation of the reasoning reward (i.e., how well the reasoning process leads to the correct answer). Building on this insight, we propose RLPR, a simple verifier-free framework that extrapolates RLVR to broader general domains. RLPR uses the LLM's own token probability scores for reference answers as the reward signal and maximizes the expected reward during training. We find that addressing the high variance of this noisy probability reward is crucial to make it work, and propose prob-to-reward and stabilizing methods to ensure a precise and stable reward from LLM intrinsic probabilities. Comprehensive experiments in four general-domain benchmarks and three mathematical benchmarks show that RLPR consistently improves reasoning capabilities in both areas for Gemma, Llama, and Qwen based models. Notably, RLPR outperforms concurrent VeriFree by 7.6 points on TheoremQA and 7.5 points on Minerva, and even surpasses strong verifier-model-dependent approaches General-Reasoner by 1.6 average points across seven benchmarks.

RLPR: Extrapolation von RLVR auf allgemeine Domänen ohne Verifizierer

RLPR: Extrapolating RLVR to General Domains without Verifiers

papers.abstract

Support