NOVER: Обучение с подкреплением языковых моделей без верификатора через систему стимулирования
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning
May 21, 2025
Авторы: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI
Аннотация
Недавние достижения, такие как DeepSeek R1-Zero, подчеркивают эффективность обучения с использованием стимулов — парадигмы обучения с подкреплением, которая вычисляет вознаграждения исключительно на основе финальной части ответа, генерируемого языковой моделью, тем самым поощряя создание промежуточных шагов рассуждений. Однако эти методы в значительной степени зависят от внешних верификаторов, что ограничивает их применимость в таких областях, как математика и программирование, где такие верификаторы легко доступны. Хотя модели вознаграждения могут выступать в роли верификаторов, они требуют высококачественных аннотированных данных и дорогостоящего обучения. В данной работе мы предлагаем NOVER, обучение с подкреплением без верификатора (NO-VERifier Reinforcement Learning), — общую структуру обучения с подкреплением, которая требует только стандартных данных для тонкой настройки с учителем и не нуждается во внешнем верификаторе. NOVER позволяет применять обучение с использованием стимулов для широкого спектра задач преобразования текста в текст и превосходит модель того же размера, дистиллированную из крупных моделей рассуждений, таких как DeepSeek R1 671B, на 7,7%. Более того, гибкость NOVER открывает новые возможности для оптимизации больших языковых моделей, такие как обратное обучение с использованием стимулов.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of
incentive training, a reinforcement learning paradigm that computes rewards
solely based on the final answer part of a language model's output, thereby
encouraging the generation of intermediate reasoning steps. However, these
methods fundamentally rely on external verifiers, which limits their
applicability to domains like mathematics and coding where such verifiers are
readily available. Although reward models can serve as verifiers, they require
high-quality annotated data and are costly to train. In this work, we propose
NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning
framework that requires only standard supervised fine-tuning data with no need
for an external verifier. NOVER enables incentive training across a wide range
of text-to-text tasks and outperforms the model of the same size distilled from
large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the
flexibility of NOVER enables new possibilities for optimizing large language
models, such as inverse incentive training.Summary
AI-Generated Summary