ChatPaper.aiChatPaper

LLaVA-Critic-R1: Jouw Critic Model is Stiekem een Sterk Policy Model

LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

August 31, 2025
Auteurs: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI

Samenvatting

In vision-language modeling zijn critic-modellen doorgaans getraind om uitvoeringen te evalueren -- door scalaire scores of paarsgewijze voorkeuren toe te kennen -- in plaats van om reacties te genereren. Deze scheiding van policy-modellen, die de reacties produceren, is zo diepgeworteld dat critics zelden worden overwogen voor direct policy-gebruik. In dit werk dagen we deze conventie uit. We stellen voor om voorkeursgelabelde critic-datasets te reorganiseren in verifieerbare trainingssignalen en reinforcement learning rechtstreeks uit te voeren op een basisgeneratief model, wat resulteert in LLaVA-Critic-R1, een multimodale critic die is getraind om voorkeursbeoordelingen te optimaliseren terwijl het volledige generatievermogen behouden blijft. Verrassend genoeg blijkt LLaVA-Critic-R1 niet alleen als een top presterende critic, maar ook als een competitief policy-model -- het evenaart of overtreft gespecialiseerde redenerende VLMs die zijn getraind met domeinspecifieke gegevens over 26 visuele redenerings- en begripsbenchmarks, met een gemiddelde winst van +5,7% ten opzichte van het basismodel (Qwen-2.5-VL-7B). Door deze aanpak uit te breiden naar bestaande sterke redenerende VLMs ontstaat LLaVA-Critic-R1+, wat de policy-prestaties verder verbetert zonder in te leveren op critic-kwaliteit, en een SoTA-prestatie van 71,9 op MMMU bereikt op de 7B-schaal. Tot slot laten we zien dat het verbeterde critic-vermogen ten goede komt aan inferentie: het toepassen van zelfkritiek tijdens de testfase resulteert in een gemiddelde verbetering van +13,8% op vijf representatieve redeneertaken zonder aanvullende training. Onze resultaten tonen aan dat RL-training op critic-gegevens een verenigd model kan opleveren dat uitblinkt in zowel evaluatie als generatie, en biedt een eenvoudige weg naar schaalbare, zelfverbeterende multimodale systemen.
English
In vision-language modeling, critic models are typically trained to evaluate outputs -- assigning scalar scores or pairwise preferences -- rather than to generate responses. This separation from policy models, which produce the responses, is so entrenched that critics are rarely considered for direct policy use. In this work, we challenge this convention. We propose to reorganize preference-labeled critic datasets into verifiable training signals and perform reinforcement learning directly on a base generative model, producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference judgments while retaining full generation ability. Surprisingly, LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a competitive policy model -- matching or surpassing specialized reasoning VLMs trained with in-domain data across 26 visual reasoning and understanding benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B). Extending this approach to existing strong reasoning VLMs yields LLaVA-Critic-R1+, which further advances policy performance without sacrificing critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale. Finally, we show that the enhanced critic ability benefits inference: applying self-critique at test time yields an average +13.8% improvement on five representative reasoning tasks without additional training. Our results reveal that RL training on critic data can produce a unified model excelling at both evaluation and generation, offering a simple path toward scalable, self-improving multimodal systems.
PDF831September 3, 2025