ChatPaper.aiChatPaper

Critique-RL : Former des modèles de langage à la critique par un apprentissage par renforcement en deux étapes

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

October 28, 2025
papers.authors: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

papers.abstract

L'entraînement de modèles de langage à la critique pour évaluer et fournir des retours sur les sorties des modèles est une méthode prometteuse pour améliorer les LLM sur des tâches de raisonnement complexe. Cependant, les approches existantes reposent généralement sur des superviseurs plus puissants pour annoter les données de critique. Pour remédier à cela, nous proposons Critique-RL, une approche de RL en ligne pour développer des modèles de langage critiques sans supervision renforcée. Notre approche fonctionne sur un paradigme à deux joueurs : l'acteur génère une réponse, le critique fournit un retour, et l'acteur affine la réponse en conséquence. Nous montrons d'abord que s'appuyer uniquement sur des signaux de récompense indirects provenant des sorties de l'acteur pour l'optimisation par RL conduit souvent à des critiques peu satisfaisants : si leur utilité (c'est-à-dire fournir un retour constructif) s'améliore, la discriminabilité (c'est-à-dire déterminer si une réponse est de haute qualité ou non) reste faible, ce qui entraîne des gains de performance marginaux. Pour surmonter cela, Critique-RL adopte une stratégie d'optimisation en deux étapes. Dans l'étape I, elle renforce la discriminabilité du critique avec des signaux de récompense directs basés sur des règles ; dans l'étape II, elle introduit des récompenses indirectes basées sur l'affinage par l'acteur pour améliorer l'utilité du critique, tout en maintenant sa discriminabilité via une régularisation appropriée. Des expériences approfondies sur diverses tâches et modèles montrent que Critique-RL apporte des améliorations substantielles de performance. Par exemple, elle permet un gain de 9,02 % sur les tâches en domaine fermé et un gain de 5,70 % sur les tâches en domaine ouvert pour Qwen2.5-7B, soulignant ainsi son potentiel.
English
Training critiquing language models to assess and provide feedback on model outputs is a promising way to improve LLMs for complex reasoning tasks. However, existing approaches typically rely on stronger supervisors for annotating critique data. To address this, we propose Critique-RL, an online RL approach for developing critiquing language models without stronger supervision. Our approach operates on a two-player paradigm: the actor generates a response, the critic provides feedback, and the actor refines the response accordingly. We first reveal that relying solely on indirect reward signals from the actor's outputs for RL optimization often leads to unsatisfactory critics: while their helpfulness (i.e., providing constructive feedback) improves, the discriminability (i.e., determining whether a response is high-quality or not) remains poor, resulting in marginal performance gains. To overcome this, Critique-RL adopts a two-stage optimization strategy. In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic's helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements. For example, it achieves a 9.02% gain on in-domain tasks and a 5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.
PDF183December 1, 2025