Kritik-RL: Training von Sprachmodellen für kritisches Feedback durch zweistufiges bestärkendes Lernen
Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning
October 28, 2025
papers.authors: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
papers.abstract
Das Training von kritisierenden Sprachmodellen zur Bewertung und Rückmeldung von Modellausgaben ist ein vielversprechender Ansatz, um LLMs für komplexe Denkaufgaben zu verbessern. Bisherige Methoden setzen jedoch typischerweise auf stärkere Aufsichtsinstanzen für die Annotation von Kritikdaten. Um dieses Problem zu lösen, schlagen wir Critique-RL vor, einen Online-RL-Ansatz zur Entwicklung kritisierender Sprachmodelle ohne stärkere Überwachung. Unser Ansatz basiert auf einem Zwei-Spieler-Paradigma: Der Akteur generiert eine Antwort, der Kritiker liefert Feedback, und der Akteur verfeinert die Antwort entsprechend. Wir zeigen zunächst, dass die alleinige Abhängigkeit von indirekten Belohnungssignalen aus den Ausgaben des Akteurs für die RL-Optimierung oft zu unbefriedigenden Kritikern führt: Während deren Hilfsbereitschaft (d.h. konstruktives Feedback zu geben) zunimmt, bleibt die Diskriminierungsfähigkeit (d.h. die Unterscheidung, ob eine Antwort hochwertig ist oder nicht) unzureichend, was nur zu marginalen Leistungssteigerungen führt. Um dies zu überwinden, verwendet Critique-RL eine zweistufige Optimierungsstrategie. In Stufe I wird die Diskriminierungsfähigkeit des Kritikers mit direkten regelbasierten Belohnungssignalen verstärkt; in Stufe II werden indirekte Belohnungen basierend auf der Verfeinerung durch den Akteur eingeführt, um die Hilfsbereitschaft des Kritikers zu verbessern, während dessen Diskriminierungsfähigkeit durch geeignete Regularisierung erhalten bleibt. Umfangreiche Experimente über verschiedene Aufgaben und Modelle hinweg zeigen, dass Critique-RL substantiale Leistungsverbesserungen erzielt. Beispielsweise erreicht es für Qwen2.5-7B einen Zuwachs von 9,02 % bei domainspezifischen Aufgaben und 5,70 % bei domänenübergreifenden Aufgaben, was sein Potenzial unterstreicht.
English
Training critiquing language models to assess and provide feedback on model
outputs is a promising way to improve LLMs for complex reasoning tasks.
However, existing approaches typically rely on stronger supervisors for
annotating critique data. To address this, we propose Critique-RL, an online RL
approach for developing critiquing language models without stronger
supervision. Our approach operates on a two-player paradigm: the actor
generates a response, the critic provides feedback, and the actor refines the
response accordingly. We first reveal that relying solely on indirect reward
signals from the actor's outputs for RL optimization often leads to
unsatisfactory critics: while their helpfulness (i.e., providing constructive
feedback) improves, the discriminability (i.e., determining whether a response
is high-quality or not) remains poor, resulting in marginal performance gains.
To overcome this, Critique-RL adopts a two-stage optimization strategy. In
stage I, it reinforces the discriminability of the critic with direct
rule-based reward signals; in stage II, it introduces indirect rewards based on
actor refinement to improve the critic's helpfulness, while maintaining its
discriminability via appropriate regularization. Extensive experiments across
various tasks and models show that Critique-RL delivers substantial performance
improvements. For example, it achieves a 9.02% gain on in-domain tasks and a
5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.