Kritiek-RL: Het Trainen van Taalmodellen voor Kritiek via Tweedelige Versterkingsleren
Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning
October 28, 2025
Auteurs: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Samenvatting
Het trainen van critiquerende taalmodelen om modeloutputs te beoordelen en feedback te geven is een veelbelovende manier om grote taalmodelen (LLMs) te verbeteren voor complexe redeneertaken. Bestaande benaderingen zijn echter doorgaans afhankelijk van sterkere supervisors voor het annoteren van critiquedata. Om dit aan te pakken, stellen wij Critique-RL voor, een online RL-benadering voor het ontwikkelen van critiquerende taalmodelen zonder sterk toezicht. Onze aanpak werkt volgens een tweespelerparadigma: de actor genereert een reactie, de criticus geeft feedback en de actor verfijnt de reactie dienovereenkomstig. We tonen eerst aan dat uitsluitend vertrouwen op indirecte beloningssignalen van de outputs van de actor voor RL-optimalisatie vaak leidt tot onbevredigende critici: hoewel hun behulpzaamheid (d.w.z. het geven van constructieve feedback) verbetert, blijft de onderscheidingsvermogen (d.w.z. bepalen of een reactie van hoge kwaliteit is of niet) zwak, wat resulteert in marginale prestatieverbeteringen. Om dit te overwinnen, hanteert Critique-RL een tweefasen optimalisatiestrategie. In fase I versterkt het het onderscheidingsvermogen van de criticus met directe op regels gebaseerde beloningssignalen; in fase II introduceert het indirecte beloningen op basis van actorverfijning om de behulpzaamheid van de criticus te verbeteren, terwijl het diens onderscheidingsvermogen behoudt via geschikte regularisatie. Uitgebreide experimenten over diverse taken en modellen tonen aan dat Critique-RL substantiële prestatieverbeteringen oplevert. Het behaalt bijvoorbeeld een winst van 9,02% op in-domeintaken en een winst van 5,70% op uit-domeintaken voor Qwen2.5-7B, wat het potentieel ervan onderstreept.
English
Training critiquing language models to assess and provide feedback on model
outputs is a promising way to improve LLMs for complex reasoning tasks.
However, existing approaches typically rely on stronger supervisors for
annotating critique data. To address this, we propose Critique-RL, an online RL
approach for developing critiquing language models without stronger
supervision. Our approach operates on a two-player paradigm: the actor
generates a response, the critic provides feedback, and the actor refines the
response accordingly. We first reveal that relying solely on indirect reward
signals from the actor's outputs for RL optimization often leads to
unsatisfactory critics: while their helpfulness (i.e., providing constructive
feedback) improves, the discriminability (i.e., determining whether a response
is high-quality or not) remains poor, resulting in marginal performance gains.
To overcome this, Critique-RL adopts a two-stage optimization strategy. In
stage I, it reinforces the discriminability of the critic with direct
rule-based reward signals; in stage II, it introduces indirect rewards based on
actor refinement to improve the critic's helpfulness, while maintaining its
discriminability via appropriate regularization. Extensive experiments across
various tasks and models show that Critique-RL delivers substantial performance
improvements. For example, it achieves a 9.02% gain on in-domain tasks and a
5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.