ChatPaper.aiChatPaper

Het uitbreiden van RL met verifieerbare beloningen in diverse domeinen

Expanding RL with Verifiable Rewards Across Diverse Domains

March 31, 2025
Auteurs: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI

Samenvatting

Reinforcement learning (RL) met verifieerbare beloningen (RLVR) heeft veelbelovende resultaten getoond bij wiskundige redeneer- en codeertaken waar goed gestructureerde referentieantwoorden beschikbaar zijn. De toepasbaarheid ervan op bredere domeinen blijft echter onderbelicht. In dit werk bestuderen we de uitbreiding van RLVR naar meer diverse domeinen zoals geneeskunde, scheikunde, psychologie en economie. We observeren een hoge overeenstemming in binaire beoordelingen tussen verschillende grote taalmodelen (LLM's) wanneer objectieve referentieantwoorden bestaan, wat de noodzaak van grootschalige annotatie voor het trainen van domeinspecifieke beloningsmodellen in twijfel trekt. Om de beperkingen van binaire beloningen bij het omgaan met ongestructureerde referentieantwoorden aan te pakken, integreren we verder modelgebaseerde zachte scoring in RLVR om de flexibiliteit ervan te verbeteren. Onze experimenten tonen aan dat een gedistilleerd generatief beloningsmodel kan dienen als een effectieve cross-domein verifier, die betrouwbare beloningssignalen voor RL biedt zonder domeinspecifieke annotaties te vereisen. Door een basis 7B-model te fine-tunen met behulp van verschillende RL-algoritmen tegen ons beloningsmodel, verkrijgen we beleidsregels die state-of-the-art open-source afgestemde LLM's zoals Qwen2.5-72B-Instruct en DeepSeek-R1-Distill-Qwen-32B met een grote marge overtreffen, over domeinen heen in vrije-antwoordinstellingen. Dit versterkt ook de robuustheid en schaalbaarheid van RLVR, wat het potentieel ervan voor real-world toepassingen met ruisachtige of zwakke labels benadrukt.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown promising results in mathematical reasoning and coding tasks where well-structured reference answers are available. However, its applicability to broader domains remains underexplored. In this work, we study the extension of RLVR to more diverse domains such as medicine, chemistry, psychology, and economics. We observe high agreement in binary judgments across different large language models (LLMs) when objective reference answers exist, which challenges the necessity of large-scale annotation for training domain-specific reward models. To address the limitations of binary rewards when handling unstructured reference answers, we further incorporate model-based soft scoring into RLVR to improve its flexibility. Our experiments show that a distilled generative reward model can serve as an effective cross-domain verifier, providing reliable reward signals for RL without requiring domain-specific annotations. By fine-tuning a base 7B model using various RL algorithms against our reward model, we obtain policies that outperform state-of-the-art open-source aligned LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large margin, across domains in free-form answer settings. This also strengthens RLVR's robustness and scalability, highlighting its potential for real-world applications with noisy or weak labels.

Summary

AI-Generated Summary

PDF192April 1, 2025