LLaVA-Critic-R1: Ihr Kritikmodell ist heimlich ein starkes Policy-Modell
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
August 31, 2025
papers.authors: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI
papers.abstract
In der Vision-Sprache-Modellierung werden Kritiker-Modelle typischerweise trainiert, um Ausgaben zu bewerten – indem sie skalare Bewertungen oder paarweise Präferenzen zuweisen –, anstatt Antworten zu generieren. Diese Trennung von Policy-Modellen, die die Antworten produzieren, ist so tief verwurzelt, dass Kritiker selten für den direkten Einsatz in der Policy in Betracht gezogen werden. In dieser Arbeit stellen wir diese Konvention in Frage. Wir schlagen vor, mit Präferenz-Labels versehene Kritiker-Datensätze in überprüfbare Trainingssignale umzuwandeln und Reinforcement Learning direkt auf ein Basis-Generativmodell anzuwenden, wodurch LLaVA-Critic-R1 entsteht – ein multimodaler Kritiker, der darauf trainiert ist, Präferenzurteile zu optimieren, während er gleichzeitig die volle Generierungsfähigkeit beibehält. Überraschenderweise erweist sich LLaVA-Critic-R1 nicht nur als ein erstklassiger Kritiker, sondern auch als ein wettbewerbsfähiges Policy-Modell – es erreicht oder übertrifft spezialisierte Reasoning-VLMs, die mit domänenspezifischen Daten trainiert wurden, in 26 visuellen Reasoning- und Verständnis-Benchmarks, mit einem durchschnittlichen Gewinn von +5,7 % gegenüber seinem Basismodell (Qwen-2.5-VL-7B). Die Erweiterung dieses Ansatzes auf bestehende starke Reasoning-VLMs führt zu LLaVA-Critic-R1+, das die Policy-Leistung weiter verbessert, ohne die Kritiker-Qualität zu opfern, und eine Spitzenleistung von 71,9 auf MMMU im 7B-Maßstab erreicht. Schließlich zeigen wir, dass die verbesserte Kritiker-Fähigkeit dem Inferenzprozess zugutekommt: Die Anwendung von Selbstkritik zur Testzeit führt zu einer durchschnittlichen Verbesserung von +13,8 % bei fünf repräsentativen Reasoning-Aufgaben ohne zusätzliches Training. Unsere Ergebnisse zeigen, dass RL-Training auf Kritiker-Daten ein einheitliches Modell hervorbringen kann, das sowohl in der Bewertung als auch in der Generierung hervorragt, und bietet einen einfachen Weg zu skalierbaren, sich selbst verbessernden multimodalen Systemen.
English
In vision-language modeling, critic models are typically trained to evaluate
outputs -- assigning scalar scores or pairwise preferences -- rather than to
generate responses. This separation from policy models, which produce the
responses, is so entrenched that critics are rarely considered for direct
policy use. In this work, we challenge this convention. We propose to
reorganize preference-labeled critic datasets into verifiable training signals
and perform reinforcement learning directly on a base generative model,
producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference
judgments while retaining full generation ability. Surprisingly,
LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a
competitive policy model -- matching or surpassing specialized reasoning VLMs
trained with in-domain data across 26 visual reasoning and understanding
benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B).
Extending this approach to existing strong reasoning VLMs yields
LLaVA-Critic-R1+, which further advances policy performance without sacrificing
critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale.
Finally, we show that the enhanced critic ability benefits inference: applying
self-critique at test time yields an average +13.8% improvement on five
representative reasoning tasks without additional training. Our results reveal
that RL training on critic data can produce a unified model excelling at both
evaluation and generation, offering a simple path toward scalable,
self-improving multimodal systems.