LLaVA-Critic-R1: Il tuo Modello Critico è Segretamente un Forte Modello di Policy
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
August 31, 2025
Autori: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI
Abstract
Nella modellazione visione-linguaggio, i modelli critici sono tipicamente addestrati per valutare gli output – assegnando punteggi scalari o preferenze a coppie – piuttosto che per generare risposte. Questa separazione dai modelli di policy, che producono le risposte, è così radicata che i critici sono raramente considerati per un uso diretto nella policy. In questo lavoro, sfidiamo questa convenzione. Proponiamo di riorganizzare i dataset critici con etichette di preferenza in segnali di addestramento verificabili e di eseguire apprendimento per rinforzo direttamente su un modello generativo di base, producendo LLaVA-Critic-R1, un critico multimodale addestrato per ottimizzare i giudizi di preferenza mantenendo piena capacità di generazione. Sorprendentemente, LLaVA-Critic-R1 emerge non solo come un critico di alto livello ma anche come un modello di policy competitivo – eguagliando o superando modelli di ragionamento visivo-linguistico (VLM) specializzati addestrati con dati di dominio specifico su 26 benchmark di ragionamento e comprensione visiva, con un guadagno medio di +5,7% rispetto al suo modello di base (Qwen-2.5-VL-7B). Estendendo questo approccio a VLM di ragionamento già forti, otteniamo LLaVA-Critic-R1+, che migliora ulteriormente le prestazioni della policy senza sacrificare la qualità del critico, raggiungendo una performance SoTA di 71,9 su MMMU alla scala 7B. Infine, dimostriamo che la capacità critica migliorata beneficia l'inferenza: applicando l'auto-critica durante il test si ottiene un miglioramento medio di +13,8% su cinque compiti rappresentativi di ragionamento senza ulteriore addestramento. I nostri risultati rivelano che l'addestramento RL su dati critici può produrre un modello unificato eccellente sia nella valutazione che nella generazione, offrendo un percorso semplice verso sistemi multimodali scalabili e auto-miglioranti.
English
In vision-language modeling, critic models are typically trained to evaluate
outputs -- assigning scalar scores or pairwise preferences -- rather than to
generate responses. This separation from policy models, which produce the
responses, is so entrenched that critics are rarely considered for direct
policy use. In this work, we challenge this convention. We propose to
reorganize preference-labeled critic datasets into verifiable training signals
and perform reinforcement learning directly on a base generative model,
producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference
judgments while retaining full generation ability. Surprisingly,
LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a
competitive policy model -- matching or surpassing specialized reasoning VLMs
trained with in-domain data across 26 visual reasoning and understanding
benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B).
Extending this approach to existing strong reasoning VLMs yields
LLaVA-Critic-R1+, which further advances policy performance without sacrificing
critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale.
Finally, we show that the enhanced critic ability benefits inference: applying
self-critique at test time yields an average +13.8% improvement on five
representative reasoning tasks without additional training. Our results reveal
that RL training on critic data can produce a unified model excelling at both
evaluation and generation, offering a simple path toward scalable,
self-improving multimodal systems.