ChatPaper.aiChatPaper

LLaVA-Critic-R1 : Votre modèle critique est secrètement un modèle de politique puissant

LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

August 31, 2025
papers.authors: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI

papers.abstract

Dans la modélisation vision-langage, les modèles critiques sont généralement entraînés pour évaluer les sorties — en attribuant des scores scalaires ou des préférences par paires — plutôt que pour générer des réponses. Cette séparation avec les modèles de politique, qui produisent les réponses, est si ancrée que les critiques sont rarement envisagés pour un usage direct en politique. Dans ce travail, nous remettons en question cette convention. Nous proposons de réorganiser les ensembles de données critiques étiquetés par préférence en signaux d'entraînement vérifiables et d'effectuer un apprentissage par renforcement directement sur un modèle générateur de base, produisant ainsi LLaVA-Critic-R1, un critique multimodal entraîné pour optimiser les jugements de préférence tout en conservant une pleine capacité de génération. Étonnamment, LLaVA-Critic-R1 émerge non seulement comme un critique de premier plan, mais aussi comme un modèle de politique compétitif — égalant ou surpassant des modèles de raisonnement vision-langage (VLM) spécialisés entraînés avec des données de domaine spécifique sur 26 benchmarks de raisonnement et de compréhension visuelle, avec un gain moyen de +5,7 % par rapport à son modèle de base (Qwen-2.5-VL-7B). L'extension de cette approche à des VLM de raisonnement déjà performants donne naissance à LLaVA-Critic-R1+, qui améliore encore les performances en politique sans sacrifier la qualité du critique, atteignant une performance de pointe de 71,9 sur MMMU à l'échelle 7B. Enfin, nous montrons que la capacité critique améliorée profite à l'inférence : l'application de l'auto-critique au moment du test entraîne une amélioration moyenne de +13,8 % sur cinq tâches de raisonnement représentatives sans entraînement supplémentaire. Nos résultats révèlent que l'entraînement par renforcement sur des données critiques peut produire un modèle unifié excellant à la fois en évaluation et en génération, offrant une voie simple vers des systèmes multimodaux évolutifs et auto-améliorants.
English
In vision-language modeling, critic models are typically trained to evaluate outputs -- assigning scalar scores or pairwise preferences -- rather than to generate responses. This separation from policy models, which produce the responses, is so entrenched that critics are rarely considered for direct policy use. In this work, we challenge this convention. We propose to reorganize preference-labeled critic datasets into verifiable training signals and perform reinforcement learning directly on a base generative model, producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference judgments while retaining full generation ability. Surprisingly, LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a competitive policy model -- matching or surpassing specialized reasoning VLMs trained with in-domain data across 26 visual reasoning and understanding benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B). Extending this approach to existing strong reasoning VLMs yields LLaVA-Critic-R1+, which further advances policy performance without sacrificing critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale. Finally, we show that the enhanced critic ability benefits inference: applying self-critique at test time yields an average +13.8% improvement on five representative reasoning tasks without additional training. Our results reveal that RL training on critic data can produce a unified model excelling at both evaluation and generation, offering a simple path toward scalable, self-improving multimodal systems.
PDF711September 3, 2025