LLaVA-Critic-R1: Jouw Critic Model is Stiekem een Sterk Policy Model
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
August 31, 2025
Auteurs: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI
Samenvatting
In vision-language modeling zijn critic-modellen doorgaans getraind om uitvoeringen te evalueren -- door scalaire scores of paarsgewijze voorkeuren toe te kennen -- in plaats van om reacties te genereren. Deze scheiding van policy-modellen, die de reacties produceren, is zo diepgeworteld dat critics zelden worden overwogen voor direct policy-gebruik. In dit werk dagen we deze conventie uit. We stellen voor om voorkeursgelabelde critic-datasets te reorganiseren in verifieerbare trainingssignalen en reinforcement learning rechtstreeks uit te voeren op een basisgeneratief model, wat resulteert in LLaVA-Critic-R1, een multimodale critic die is getraind om voorkeursbeoordelingen te optimaliseren terwijl het volledige generatievermogen behouden blijft. Verrassend genoeg blijkt LLaVA-Critic-R1 niet alleen als een top presterende critic, maar ook als een competitief policy-model -- het evenaart of overtreft gespecialiseerde redenerende VLMs die zijn getraind met domeinspecifieke gegevens over 26 visuele redenerings- en begripsbenchmarks, met een gemiddelde winst van +5,7% ten opzichte van het basismodel (Qwen-2.5-VL-7B). Door deze aanpak uit te breiden naar bestaande sterke redenerende VLMs ontstaat LLaVA-Critic-R1+, wat de policy-prestaties verder verbetert zonder in te leveren op critic-kwaliteit, en een SoTA-prestatie van 71,9 op MMMU bereikt op de 7B-schaal. Tot slot laten we zien dat het verbeterde critic-vermogen ten goede komt aan inferentie: het toepassen van zelfkritiek tijdens de testfase resulteert in een gemiddelde verbetering van +13,8% op vijf representatieve redeneertaken zonder aanvullende training. Onze resultaten tonen aan dat RL-training op critic-gegevens een verenigd model kan opleveren dat uitblinkt in zowel evaluatie als generatie, en biedt een eenvoudige weg naar schaalbare, zelfverbeterende multimodale systemen.
English
In vision-language modeling, critic models are typically trained to evaluate
outputs -- assigning scalar scores or pairwise preferences -- rather than to
generate responses. This separation from policy models, which produce the
responses, is so entrenched that critics are rarely considered for direct
policy use. In this work, we challenge this convention. We propose to
reorganize preference-labeled critic datasets into verifiable training signals
and perform reinforcement learning directly on a base generative model,
producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference
judgments while retaining full generation ability. Surprisingly,
LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a
competitive policy model -- matching or surpassing specialized reasoning VLMs
trained with in-domain data across 26 visual reasoning and understanding
benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B).
Extending this approach to existing strong reasoning VLMs yields
LLaVA-Critic-R1+, which further advances policy performance without sacrificing
critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale.
Finally, we show that the enhanced critic ability benefits inference: applying
self-critique at test time yields an average +13.8% improvement on five
representative reasoning tasks without additional training. Our results reveal
that RL training on critic data can produce a unified model excelling at both
evaluation and generation, offering a simple path toward scalable,
self-improving multimodal systems.