Het uitbreiden van RL met verifieerbare beloningen in diverse domeinen
Expanding RL with Verifiable Rewards Across Diverse Domains
March 31, 2025
Auteurs: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI
Samenvatting
Reinforcement learning (RL) met verifieerbare beloningen (RLVR) heeft veelbelovende resultaten getoond bij wiskundige redeneer- en codeertaken waar goed gestructureerde referentieantwoorden beschikbaar zijn. De toepasbaarheid ervan op bredere domeinen blijft echter onderbelicht. In dit werk bestuderen we de uitbreiding van RLVR naar meer diverse domeinen zoals geneeskunde, scheikunde, psychologie en economie. We observeren een hoge overeenstemming in binaire beoordelingen tussen verschillende grote taalmodelen (LLM's) wanneer objectieve referentieantwoorden bestaan, wat de noodzaak van grootschalige annotatie voor het trainen van domeinspecifieke beloningsmodellen in twijfel trekt. Om de beperkingen van binaire beloningen bij het omgaan met ongestructureerde referentieantwoorden aan te pakken, integreren we verder modelgebaseerde zachte scoring in RLVR om de flexibiliteit ervan te verbeteren. Onze experimenten tonen aan dat een gedistilleerd generatief beloningsmodel kan dienen als een effectieve cross-domein verifier, die betrouwbare beloningssignalen voor RL biedt zonder domeinspecifieke annotaties te vereisen. Door een basis 7B-model te fine-tunen met behulp van verschillende RL-algoritmen tegen ons beloningsmodel, verkrijgen we beleidsregels die state-of-the-art open-source afgestemde LLM's zoals Qwen2.5-72B-Instruct en DeepSeek-R1-Distill-Qwen-32B met een grote marge overtreffen, over domeinen heen in vrije-antwoordinstellingen. Dit versterkt ook de robuustheid en schaalbaarheid van RLVR, wat het potentieel ervan voor real-world toepassingen met ruisachtige of zwakke labels benadrukt.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown
promising results in mathematical reasoning and coding tasks where
well-structured reference answers are available. However, its applicability to
broader domains remains underexplored. In this work, we study the extension of
RLVR to more diverse domains such as medicine, chemistry, psychology, and
economics. We observe high agreement in binary judgments across different large
language models (LLMs) when objective reference answers exist, which challenges
the necessity of large-scale annotation for training domain-specific reward
models. To address the limitations of binary rewards when handling unstructured
reference answers, we further incorporate model-based soft scoring into RLVR to
improve its flexibility. Our experiments show that a distilled generative
reward model can serve as an effective cross-domain verifier, providing
reliable reward signals for RL without requiring domain-specific annotations.
By fine-tuning a base 7B model using various RL algorithms against our reward
model, we obtain policies that outperform state-of-the-art open-source aligned
LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large
margin, across domains in free-form answer settings. This also strengthens
RLVR's robustness and scalability, highlighting its potential for real-world
applications with noisy or weak labels.Summary
AI-Generated Summary