ChatPaper.aiChatPaper

Critique-RL: Обучение языковых моделей для критики с помощью двухэтапного обучения с подкреплением

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

October 28, 2025
Авторы: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Аннотация

Обучение критикующих языковых моделей для оценки и предоставления обратной связи на выходные данные моделей является перспективным способом улучшения БМО для сложных задач логического вывода. Однако существующие подходы обычно полагаются на более сильных супервайзеров для аннотирования данных критики. Чтобы решить эту проблему, мы предлагаем Critique-RL — онлайн-подход с обучением с подкреплением для разработки критикующих языковых моделей без привлечения более сильного надзора. Наш подход работает по парадигме двух игроков: актор генерирует ответ, критик предоставляет обратную связь, и актор соответствующим образом улучшает ответ. Сначала мы показываем, что опора исключительно на косвенные сигналы вознаграждения от выходных данных актора для RL-оптимизации часто приводит к неудовлетворительным критикам: хотя их полезность (т.е. способность предоставлять конструктивную обратную связь) улучшается, дискриминирующая способность (т.е. определение того, является ли ответ качественным или нет) остается низкой, что приводит к незначительному приросту производительности. Чтобы преодолеть это, Critique-RL использует двухэтапную стратегию оптимизации. На этапе I подход усиливает дискриминирующую способность критика с помощью прямых сигналов вознаграждения на основе правил; на этапе II он вводит косвенные вознаграждения на основе доработки актора, чтобы улучшить полезность критика, одновременно поддерживая его дискриминирующую способность за счет соответствующей регуляризации. Многочисленные эксперименты на различных задачах и моделях показывают, что Critique-RL обеспечивает существенное улучшение производительности. Например, для модели Qwen2.5-7B он демонстрирует прирост в 9,02% на внутридоменных задачах и 5,70% на внедоменных задачах, что подчеркивает его потенциал.
English
Training critiquing language models to assess and provide feedback on model outputs is a promising way to improve LLMs for complex reasoning tasks. However, existing approaches typically rely on stronger supervisors for annotating critique data. To address this, we propose Critique-RL, an online RL approach for developing critiquing language models without stronger supervision. Our approach operates on a two-player paradigm: the actor generates a response, the critic provides feedback, and the actor refines the response accordingly. We first reveal that relying solely on indirect reward signals from the actor's outputs for RL optimization often leads to unsatisfactory critics: while their helpfulness (i.e., providing constructive feedback) improves, the discriminability (i.e., determining whether a response is high-quality or not) remains poor, resulting in marginal performance gains. To overcome this, Critique-RL adopts a two-stage optimization strategy. In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic's helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements. For example, it achieves a 9.02% gain on in-domain tasks and a 5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.
PDF183December 1, 2025