ChatPaper.aiChatPaper

Ampliando el Aprendizaje por Refuerzo con Recompensas Verificables en Diversos Dominios

Expanding RL with Verifiable Rewards Across Diverse Domains

March 31, 2025
Autores: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI

Resumen

El aprendizaje por refuerzo (RL) con recompensas verificables (RLVR) ha mostrado resultados prometedores en tareas de razonamiento matemático y codificación donde existen respuestas de referencia bien estructuradas. Sin embargo, su aplicabilidad en dominios más amplios sigue siendo poco explorada. En este trabajo, estudiamos la extensión de RLVR a dominios más diversos como la medicina, la química, la psicología y la economía. Observamos un alto acuerdo en juicios binarios entre diferentes modelos de lenguaje grandes (LLMs) cuando existen respuestas de referencia objetivas, lo que cuestiona la necesidad de anotaciones a gran escala para entrenar modelos de recompensa específicos del dominio. Para abordar las limitaciones de las recompensas binarias al manejar respuestas de referencia no estructuradas, incorporamos además puntuaciones suaves basadas en modelos en RLVR para mejorar su flexibilidad. Nuestros experimentos muestran que un modelo generativo de recompensa destilado puede servir como un verificador efectivo entre dominios, proporcionando señales de recompensa confiables para RL sin requerir anotaciones específicas del dominio. Al ajustar un modelo base de 7B utilizando varios algoritmos de RL contra nuestro modelo de recompensa, obtenemos políticas que superan por un amplio margen a los LLMs alineados de código abierto más avanzados, como Qwen2.5-72B-Instruct y DeepSeek-R1-Distill-Qwen-32B, en diversos dominios en entornos de respuestas de formato libre. Esto también refuerza la robustez y escalabilidad de RLVR, destacando su potencial para aplicaciones del mundo real con etiquetas ruidosas o débiles.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown promising results in mathematical reasoning and coding tasks where well-structured reference answers are available. However, its applicability to broader domains remains underexplored. In this work, we study the extension of RLVR to more diverse domains such as medicine, chemistry, psychology, and economics. We observe high agreement in binary judgments across different large language models (LLMs) when objective reference answers exist, which challenges the necessity of large-scale annotation for training domain-specific reward models. To address the limitations of binary rewards when handling unstructured reference answers, we further incorporate model-based soft scoring into RLVR to improve its flexibility. Our experiments show that a distilled generative reward model can serve as an effective cross-domain verifier, providing reliable reward signals for RL without requiring domain-specific annotations. By fine-tuning a base 7B model using various RL algorithms against our reward model, we obtain policies that outperform state-of-the-art open-source aligned LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large margin, across domains in free-form answer settings. This also strengthens RLVR's robustness and scalability, highlighting its potential for real-world applications with noisy or weak labels.

Summary

AI-Generated Summary

PDF192April 1, 2025