Расширение возможностей обучения с подкреплением с проверяемыми вознаграждениями в различных областях
Expanding RL with Verifiable Rewards Across Diverse Domains
March 31, 2025
Авторы: Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
cs.AI
Аннотация
Обучение с подкреплением (RL) с верифицируемыми наградами (RLVR) продемонстрировало многообещающие результаты в задачах математического рассуждения и программирования, где доступны хорошо структурированные эталонные ответы. Однако его применимость к более широким областям остается недостаточно изученной. В данной работе мы исследуем расширение RLVR на более разнообразные области, такие как медицина, химия, психология и экономика. Мы наблюдаем высокую согласованность в бинарных оценках между различными крупными языковыми моделями (LLM), когда существуют объективные эталонные ответы, что ставит под сомнение необходимость масштабной аннотации для обучения доменно-специфических моделей наград. Чтобы преодолеть ограничения бинарных наград при работе с неструктурированными эталонными ответами, мы дополнительно интегрируем мягкое оценивание на основе моделей в RLVR для повышения его гибкости. Наши эксперименты показывают, что дистиллированная генеративная модель наград может служить эффективным кросс-доменным верификатором, предоставляя надежные сигналы наград для RL без необходимости доменно-специфических аннотаций. Путем тонкой настройки базовой модели на 7B с использованием различных алгоритмов RL против нашей модели наград, мы получаем политики, которые значительно превосходят современные открытые выровненные LLM, такие как Qwen2.5-72B-Instruct и DeepSeek-R1-Distill-Qwen-32B, в различных областях в условиях свободного ответа. Это также укрепляет устойчивость и масштабируемость RLVR, подчеркивая его потенциал для реальных приложений с зашумленными или слабыми метками.
English
Reinforcement learning (RL) with verifiable rewards (RLVR) has shown
promising results in mathematical reasoning and coding tasks where
well-structured reference answers are available. However, its applicability to
broader domains remains underexplored. In this work, we study the extension of
RLVR to more diverse domains such as medicine, chemistry, psychology, and
economics. We observe high agreement in binary judgments across different large
language models (LLMs) when objective reference answers exist, which challenges
the necessity of large-scale annotation for training domain-specific reward
models. To address the limitations of binary rewards when handling unstructured
reference answers, we further incorporate model-based soft scoring into RLVR to
improve its flexibility. Our experiments show that a distilled generative
reward model can serve as an effective cross-domain verifier, providing
reliable reward signals for RL without requiring domain-specific annotations.
By fine-tuning a base 7B model using various RL algorithms against our reward
model, we obtain policies that outperform state-of-the-art open-source aligned
LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large
margin, across domains in free-form answer settings. This also strengthens
RLVR's robustness and scalability, highlighting its potential for real-world
applications with noisy or weak labels.