Élargissement de l'apprentissage par renforcement avec des récompenses vérifiables dans divers domaines
Expanding RL with Verifiable Rewards Across Diverse Domains
March 31, 2025
Auteurs: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI
Résumé
L'apprentissage par renforcement (RL) avec récompenses vérifiables (RLVR) a montré des résultats prometteurs dans les tâches de raisonnement mathématique et de codage où des réponses de référence bien structurées sont disponibles. Cependant, son applicabilité à des domaines plus vastes reste peu explorée. Dans ce travail, nous étudions l'extension de RLVR à des domaines plus diversifiés tels que la médecine, la chimie, la psychologie et l'économie. Nous observons un fort accord dans les jugements binaires entre différents grands modèles de langage (LLMs) lorsque des réponses de référence objectives existent, ce qui remet en question la nécessité d'une annotation à grande échelle pour entraîner des modèles de récompense spécifiques à un domaine. Pour pallier les limitations des récompenses binaires lors de la gestion de réponses de référence non structurées, nous intégrons en outre un système de notation douce basé sur un modèle dans RLVR pour améliorer sa flexibilité. Nos expériences montrent qu'un modèle génératif de récompense distillé peut servir de vérificateur interdomaine efficace, fournissant des signaux de récompense fiables pour RL sans nécessiter d'annotations spécifiques à un domaine. En affinant un modèle de base de 7B à l'aide de divers algorithmes de RL contre notre modèle de récompense, nous obtenons des politiques qui surpassent largement les LLMs alignés open-source de pointe tels que Qwen2.5-72B-Instruct et DeepSeek-R1-Distill-Qwen-32B, dans des contextes de réponses libres et variées. Cela renforce également la robustesse et l'évolutivité de RLVR, mettant en lumière son potentiel pour des applications réelles avec des étiquettes bruyantes ou faibles.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown
promising results in mathematical reasoning and coding tasks where
well-structured reference answers are available. However, its applicability to
broader domains remains underexplored. In this work, we study the extension of
RLVR to more diverse domains such as medicine, chemistry, psychology, and
economics. We observe high agreement in binary judgments across different large
language models (LLMs) when objective reference answers exist, which challenges
the necessity of large-scale annotation for training domain-specific reward
models. To address the limitations of binary rewards when handling unstructured
reference answers, we further incorporate model-based soft scoring into RLVR to
improve its flexibility. Our experiments show that a distilled generative
reward model can serve as an effective cross-domain verifier, providing
reliable reward signals for RL without requiring domain-specific annotations.
By fine-tuning a base 7B model using various RL algorithms against our reward
model, we obtain policies that outperform state-of-the-art open-source aligned
LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large
margin, across domains in free-form answer settings. This also strengthens
RLVR's robustness and scalability, highlighting its potential for real-world
applications with noisy or weak labels.