Erweiterung von RL mit verifizierbaren Belohnungen in diversen Domänen
Expanding RL with Verifiable Rewards Across Diverse Domains
March 31, 2025
Autoren: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI
Zusammenfassung
Reinforcement Learning (RL) mit verifizierbaren Belohnungen (RLVR) hat vielversprechende Ergebnisse in mathematischen Denkaufgaben und Programmieraufgaben gezeigt, bei denen gut strukturierte Referenzantworten verfügbar sind. Die Anwendbarkeit auf breitere Domänen bleibt jedoch weitgehend unerforscht. In dieser Arbeit untersuchen wir die Erweiterung von RLVR auf vielfältigere Domänen wie Medizin, Chemie, Psychologie und Wirtschaftswissenschaften. Wir beobachten eine hohe Übereinstimmung bei binären Bewertungen zwischen verschiedenen großen Sprachmodellen (LLMs), wenn objektive Referenzantworten vorhanden sind, was die Notwendigkeit groß angelegter Annotationen für das Training domänenspezifischer Belohnungsmodelle infrage stellt. Um die Einschränkungen binärer Belohnungen bei der Verarbeitung unstrukturierter Referenzantworten zu überwinden, integrieren wir zusätzlich modellbasierte Soft-Scoring in RLVR, um dessen Flexibilität zu verbessern. Unsere Experimente zeigen, dass ein destilliertes generatives Belohnungsmodell als effektiver domänenübergreifender Verifizierer dienen kann, der zuverlässige Belohnungssignale für RL liefert, ohne domänenspezifische Annotationen zu benötigen. Durch das Feinabstimmen eines Basismodells mit 7B Parametern mithilfe verschiedener RL-Algorithmen gegen unser Belohnungsmodell erhalten wir Strategien, die state-of-the-art Open-Source-LLMs wie Qwen2.5-72B-Instruct und DeepSeek-R1-Distill-Qwen-32B in freiformulierten Antwortsettings domänenübergreifend deutlich übertreffen. Dies stärkt auch die Robustheit und Skalierbarkeit von RLVR und unterstreicht dessen Potenzial für reale Anwendungen mit verrauschten oder schwachen Labels.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown
promising results in mathematical reasoning and coding tasks where
well-structured reference answers are available. However, its applicability to
broader domains remains underexplored. In this work, we study the extension of
RLVR to more diverse domains such as medicine, chemistry, psychology, and
economics. We observe high agreement in binary judgments across different large
language models (LLMs) when objective reference answers exist, which challenges
the necessity of large-scale annotation for training domain-specific reward
models. To address the limitations of binary rewards when handling unstructured
reference answers, we further incorporate model-based soft scoring into RLVR to
improve its flexibility. Our experiments show that a distilled generative
reward model can serve as an effective cross-domain verifier, providing
reliable reward signals for RL without requiring domain-specific annotations.
By fine-tuning a base 7B model using various RL algorithms against our reward
model, we obtain policies that outperform state-of-the-art open-source aligned
LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large
margin, across domains in free-form answer settings. This also strengthens
RLVR's robustness and scalability, highlighting its potential for real-world
applications with noisy or weak labels.Summary
AI-Generated Summary