ChatPaper.aiChatPaper

Critique-RL: Addestramento di Modelli Linguistici per la Critica tramite Apprendimento per Rinforzo a Due Stadi

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

October 28, 2025
Autori: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Abstract

L'addestramento di modelli linguistici di critica per valutare e fornire feedback sugli output del modello è un approccio promettente per migliorare i LLM in compiti di ragionamento complesso. Tuttavia, gli approcci esistenti tipicamente dipendono da supervisori più potenti per annotare i dati di critica. Per affrontare questo problema, proponiamo Critique-RL, un approccio di RL online per sviluppare modelli linguistici di critica senza supervisione potenziata. Il nostro approccio opera su un paradigma a due giocatori: l'attore genera una risposta, il critico fornisce un feedback e l'attore perfeziona la risposta di conseguenza. Riveliamo innanzitutto che fare affidamento esclusivamente su segnali di reward indiretti dagli output dell'attore per l'ottimizzazione RL spesso porta a critici insoddisfacenti: mentre la loro utilità (cioè fornire feedback costruttivi) migliora, la discriminabilità (cioè determinare se una risposta è di alta qualità o meno) rimane scarsa, con conseguenti miglioramenti marginali delle prestazioni. Per superare questo limite, Critique-RL adotta una strategia di ottimizzazione in due fasi. Nella Fase I, rinforza la discriminabilità del critico con segnali di reward diretti basati su regole; nella Fase II, introduce reward indiretti basati sul perfezionamento dell'attore per migliorare l'utilità del critico, mantenendo al contempo la sua discriminabilità attraverso una regolarizzazione appropriata. Esperimenti estesi su vari compiti e modelli mostrano che Critique-RL apporta sostanziali miglioramenti prestazionali. Ad esempio, ottiene un guadagno del 9.02% su compiti in-dominio e del 5.70% su compiti out-of-domain per Qwen2.5-7B, evidenziandone il potenziale.
English
Training critiquing language models to assess and provide feedback on model outputs is a promising way to improve LLMs for complex reasoning tasks. However, existing approaches typically rely on stronger supervisors for annotating critique data. To address this, we propose Critique-RL, an online RL approach for developing critiquing language models without stronger supervision. Our approach operates on a two-player paradigm: the actor generates a response, the critic provides feedback, and the actor refines the response accordingly. We first reveal that relying solely on indirect reward signals from the actor's outputs for RL optimization often leads to unsatisfactory critics: while their helpfulness (i.e., providing constructive feedback) improves, the discriminability (i.e., determining whether a response is high-quality or not) remains poor, resulting in marginal performance gains. To overcome this, Critique-RL adopts a two-stage optimization strategy. In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic's helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements. For example, it achieves a 9.02% gain on in-domain tasks and a 5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.
PDF183December 1, 2025