ChatPaper.aiChatPaper

Crítico-RL: Treinando Modelos de Linguagem para Crítica por Meio de Aprendizado por Reforço em Dois Estágios

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

October 28, 2025
Autores: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Resumo

Treinar modelos de linguagem de crítica para avaliar e fornecer feedback sobre as saídas de modelos é uma forma promissora de melhorar os LLMs para tarefas de raciocínio complexo. No entanto, as abordagens existentes geralmente dependem de supervisores mais fortes para anotar dados de crítica. Para resolver isso, propomos o Critique-RL, uma abordagem de RL online para desenvolver modelos de linguagem de crítica sem supervisão mais forte. Nossa abordagem opera em um paradigma de dois jogadores: o ator gera uma resposta, o crítico fornece feedback e o ator refina a resposta de acordo. Primeiro, revelamos que depender apenas de sinais de recompensa indiretos das saídas do ator para otimização de RL frequentemente leva a críticos insatisfatórios: embora sua utilidade (ou seja, fornecer feedback construtivo) melhore, a discriminabilidade (ou seja, determinar se uma resposta é de alta qualidade ou não) permanece baixa, resultando em ganhos de desempenho marginais. Para superar isso, o Critique-RL adota uma estratégia de otimização em dois estágios. No estágio I, ele reforça a discriminabilidade do crítico com sinais de recompensa diretos baseados em regras; no estágio II, introduz recompensas indiretas baseadas no refinamento do ator para melhorar a utilidade do crítico, mantendo sua discriminabilidade por meio de uma regularização apropriada. Experimentos extensos em várias tarefas e modelos mostram que o Critique-RL proporciona melhorias substanciais de desempenho. Por exemplo, ele alcança um ganho de 9,02% em tarefas dentro do domínio e um ganho de 5,70% em tarefas fora do domínio para o Qwen2.5-7B, destacando seu potencial.
English
Training critiquing language models to assess and provide feedback on model outputs is a promising way to improve LLMs for complex reasoning tasks. However, existing approaches typically rely on stronger supervisors for annotating critique data. To address this, we propose Critique-RL, an online RL approach for developing critiquing language models without stronger supervision. Our approach operates on a two-player paradigm: the actor generates a response, the critic provides feedback, and the actor refines the response accordingly. We first reveal that relying solely on indirect reward signals from the actor's outputs for RL optimization often leads to unsatisfactory critics: while their helpfulness (i.e., providing constructive feedback) improves, the discriminability (i.e., determining whether a response is high-quality or not) remains poor, resulting in marginal performance gains. To overcome this, Critique-RL adopts a two-stage optimization strategy. In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic's helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements. For example, it achieves a 9.02% gain on in-domain tasks and a 5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.
PDF213February 7, 2026