Expandindo o Aprendizado por Reforço com Recompensas Verificáveis em Diferentes Domínios
Expanding RL with Verifiable Rewards Across Diverse Domains
March 31, 2025
Autores: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI
Resumo
O aprendizado por reforço (RL) com recompensas verificáveis (RLVR) tem mostrado resultados promissores em tarefas de raciocínio matemático e codificação, onde respostas de referência bem estruturadas estão disponíveis. No entanto, sua aplicabilidade em domínios mais amplos permanece pouco explorada. Neste trabalho, estudamos a extensão do RLVR para domínios mais diversos, como medicina, química, psicologia e economia. Observamos uma alta concordância em julgamentos binários entre diferentes modelos de linguagem de grande escala (LLMs) quando existem respostas de referência objetivas, o que desafia a necessidade de anotações em larga escala para treinar modelos de recompensa específicos de domínio. Para abordar as limitações das recompensas binárias ao lidar com respostas de referência não estruturadas, incorporamos ainda a pontuação suave baseada em modelos ao RLVR para melhorar sua flexibilidade. Nossos experimentos mostram que um modelo de recompensa generativo destilado pode servir como um verificador eficaz entre domínios, fornecendo sinais de recompensa confiáveis para RL sem exigir anotações específicas de domínio. Ao ajustar um modelo base de 7B usando vários algoritmos de RL contra nosso modelo de recompensa, obtemos políticas que superam os LLMs alinhados de código aberto mais avançados, como Qwen2.5-72B-Instruct e DeepSeek-R1-Distill-Qwen-32B, por uma grande margem, em diversos domínios em configurações de respostas de forma livre. Isso também fortalece a robustez e escalabilidade do RLVR, destacando seu potencial para aplicações do mundo real com rótulos ruidosos ou fracos.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown
promising results in mathematical reasoning and coding tasks where
well-structured reference answers are available. However, its applicability to
broader domains remains underexplored. In this work, we study the extension of
RLVR to more diverse domains such as medicine, chemistry, psychology, and
economics. We observe high agreement in binary judgments across different large
language models (LLMs) when objective reference answers exist, which challenges
the necessity of large-scale annotation for training domain-specific reward
models. To address the limitations of binary rewards when handling unstructured
reference answers, we further incorporate model-based soft scoring into RLVR to
improve its flexibility. Our experiments show that a distilled generative
reward model can serve as an effective cross-domain verifier, providing
reliable reward signals for RL without requiring domain-specific annotations.
By fine-tuning a base 7B model using various RL algorithms against our reward
model, we obtain policies that outperform state-of-the-art open-source aligned
LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large
margin, across domains in free-form answer settings. This also strengthens
RLVR's robustness and scalability, highlighting its potential for real-world
applications with noisy or weak labels.Summary
AI-Generated Summary