ChatPaper.aiChatPaper

Critique-RL: Entrenamiento de Modelos de Lenguaje para la Crítica mediante Aprendizaje por Refuerzo en Dos Etapas

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

October 28, 2025
Autores: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Resumen

Entrenar modelos de lenguaje de crítica para evaluar y proporcionar retroalimentación sobre las salidas de otros modelos es una forma prometedora de mejorar los LLMs en tareas de razonamiento complejo. Sin embargo, los enfoques existentes suelen depender de supervisores más potentes para anotar los datos de crítica. Para abordar este problema, proponemos Critique-RL, un enfoque de RL en línea para desarrollar modelos de lenguaje de crítica sin necesidad de una supervisión más fuerte. Nuestro enfoque opera bajo un paradigma de dos agentes: el actor genera una respuesta, el crítico proporciona retroalimentación y el actor refina la respuesta en consecuencia. Primero revelamos que depender únicamente de señales de recompensa indirectas provenientes de las salidas del actor para la optimización por RL a menudo da como resultado críticos insatisfactorios: aunque su utilidad (es decir, proporcionar retroalimentación constructiva) mejora, la discriminabilidad (es decir, determinar si una respuesta es de alta calidad o no) sigue siendo pobre, lo que se traduce en ganancias de rendimiento marginales. Para superar esto, Critique-RL adopta una estrategia de optimización en dos etapas. En la Etapa I, refuerza la discriminabilidad del crítico con señales de recompensa directas basadas en reglas; en la Etapa II, introduce recompensas indirectas basadas en el refinamiento del actor para mejorar la utilidad del crítico, manteniendo simultáneamente su discriminabilidad mediante una regularización adecuada. Experimentos exhaustivos en diversas tareas y modelos muestran que Critique-RL proporciona mejoras sustanciales de rendimiento. Por ejemplo, logra una ganancia del 9.02% en tareas dentro del dominio y del 5.70% en tareas fuera del dominio para Qwen2.5-7B, lo que resalta su potencial.
English
Training critiquing language models to assess and provide feedback on model outputs is a promising way to improve LLMs for complex reasoning tasks. However, existing approaches typically rely on stronger supervisors for annotating critique data. To address this, we propose Critique-RL, an online RL approach for developing critiquing language models without stronger supervision. Our approach operates on a two-player paradigm: the actor generates a response, the critic provides feedback, and the actor refines the response accordingly. We first reveal that relying solely on indirect reward signals from the actor's outputs for RL optimization often leads to unsatisfactory critics: while their helpfulness (i.e., providing constructive feedback) improves, the discriminability (i.e., determining whether a response is high-quality or not) remains poor, resulting in marginal performance gains. To overcome this, Critique-RL adopts a two-stage optimization strategy. In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic's helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements. For example, it achieves a 9.02% gain on in-domain tasks and a 5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.
PDF183December 1, 2025