Critique-RL: 二段階強化学習による批判的レビュー生成のための言語モデル訓練
Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning
October 28, 2025
著者: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
要旨
大規模言語モデル(LLM)の出力を評価しフィードバックを提供する批判的言語モデルを訓練することは、複雑な推論タスクにおけるLLM改善の有望な手法である。しかし、既存の手法では通常、批判データの注釈付けにより強力な監督者に依存している。この問題を解決するため、我々は強力な監督を必要としない批判的言語モデル開発のためのオンライン強化学習(RL)手法「Critique-RL」を提案する。本手法は2プレイヤーのパラダイムに基づく:アクターが応答を生成し、批評家がフィードバックを提供し、アクターがそれに応じて応答を改良する。まず、RL最適化においてアクターの出力からの間接的な報酬信号のみに依存すると、批評家の性能が不十分になることを明らかにする。すなわち、有益性(建設的フィードバックの提供)は向上するものの、識別性(応答の質の高低判断)は低いままとなり、性能向上が限定的となる。この問題を克服するため、Critique-RLは2段階最適化戦略を採用する。第I段階では、ルールベースの直接報酬信号を用いて批評家の識別性を強化する。第II段階では、アクターの改良に基づく間接報酬を導入して批評家の有益性を向上させつつ、適切な正則化により識別性を維持する。様々なタスクとモデルを用いた大規模な実験により、Critique-RLが実質的な性能向上をもたらすことを示す。例えば、Qwen2.5-7Bでは、ドメイン内タスクで9.02%、ドメイン外タスクで5.70%の性能向上を達成し、その有効性が確認された。
English
Training critiquing language models to assess and provide feedback on model
outputs is a promising way to improve LLMs for complex reasoning tasks.
However, existing approaches typically rely on stronger supervisors for
annotating critique data. To address this, we propose Critique-RL, an online RL
approach for developing critiquing language models without stronger
supervision. Our approach operates on a two-player paradigm: the actor
generates a response, the critic provides feedback, and the actor refines the
response accordingly. We first reveal that relying solely on indirect reward
signals from the actor's outputs for RL optimization often leads to
unsatisfactory critics: while their helpfulness (i.e., providing constructive
feedback) improves, the discriminability (i.e., determining whether a response
is high-quality or not) remains poor, resulting in marginal performance gains.
To overcome this, Critique-RL adopts a two-stage optimization strategy. In
stage I, it reinforces the discriminability of the critic with direct
rule-based reward signals; in stage II, it introduces indirect rewards based on
actor refinement to improve the critic's helpfulness, while maintaining its
discriminability via appropriate regularization. Extensive experiments across
various tasks and models show that Critique-RL delivers substantial performance
improvements. For example, it achieves a 9.02% gain on in-domain tasks and a
5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.