ChatPaper.aiChatPaper

Critique-RL: 2단계 강화학습을 통한 비판적 평가를 위한 언어 모델 학습

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

October 28, 2025
저자: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

초록

비판 언어 모델을 훈련시켜 모델 출력을 평가하고 피드백을 제공하도록 하는 것은 복잡한 추론 과제를 위한 LLM 성능 향상의 유망한 방법입니다. 그러나 기존 접근법은 일반적으로 비판 데이터 주석을 위해 더 강력한 감독자(supervisor)에 의존합니다. 이를 해결하기 위해 우리는 더 강력한 감독 없이 비판 언어 모델을 개발하는 온라인 RL 접근법인 Critique-RL을 제안합니다. 우리의 접근법은 두 참여자 패러다임으로 운영됩니다: 행위자(actor)가 응답을 생성하면, 비판자(critic)가 피드백을 제공하고, 행위자는 그에 따라 응답을 수정합니다. 우리는 먼저 RL 최적화를 위해 행위자 출력의 간접 보상 신호만 의존하는 것이 종종 불만족스러운 비판자로 이어진다는 점을 밝혀냈습니다. 비판자의 도움 정도(즉, 건설적인 피드백 제공)는 개선되지만, 식별 능력(즉, 응답의 질적 우수성 판단)은 낮은 수준에 머물러 성능 향상이 미미합니다. 이를 극복하기 위해 Critique-RL은 두 단계 최적화 전략을 채택합니다. 1단계에서는 규칙 기반의 직접 보상 신호로 비판자의 식별 능력을 강화합니다. 2단계에서는 행위자의 수정을 기반으로 간접 보상을 도입하여 비판자의 도움 정도를 개선함과 동시에 적절한 정규화를 통해 식별 능력을 유지합니다. 다양한 과제와 모델을 대상으로 한 광범위한 실험을 통해 Critique-RL이 상당한 성능 향상을 가져옴을 확인했습니다. 예를 들어, Qwen2.5-7B 기준으로 도메인 내 과제에서 9.02%, 도메인 외 과제에서 5.70%의 성능 향상을 달성하여 그 잠재력을 입증했습니다.
English
Training critiquing language models to assess and provide feedback on model outputs is a promising way to improve LLMs for complex reasoning tasks. However, existing approaches typically rely on stronger supervisors for annotating critique data. To address this, we propose Critique-RL, an online RL approach for developing critiquing language models without stronger supervision. Our approach operates on a two-player paradigm: the actor generates a response, the critic provides feedback, and the actor refines the response accordingly. We first reveal that relying solely on indirect reward signals from the actor's outputs for RL optimization often leads to unsatisfactory critics: while their helpfulness (i.e., providing constructive feedback) improves, the discriminability (i.e., determining whether a response is high-quality or not) remains poor, resulting in marginal performance gains. To overcome this, Critique-RL adopts a two-stage optimization strategy. In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic's helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements. For example, it achieves a 9.02% gain on in-domain tasks and a 5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.
PDF183December 1, 2025