LLaVA-Critic-R1: Tu Modelo Crítico es en Realidad un Potente Modelo de Políticas
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
August 31, 2025
Autores: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI
Resumen
En el modelado visión-lenguaje, los modelos críticos suelen entrenarse para evaluar salidas —asignando puntuaciones escalares o preferencias por pares— en lugar de generar respuestas. Esta separación de los modelos de política, que producen las respuestas, está tan arraigada que rara vez se considera a los críticos para su uso directo en políticas. En este trabajo, desafiamos esta convención. Proponemos reorganizar conjuntos de datos críticos etiquetados con preferencias en señales de entrenamiento verificables y realizar aprendizaje por refuerzo directamente sobre un modelo generativo base, produciendo LLaVA-Critic-R1, un crítico multimodal entrenado para optimizar juicios de preferencia mientras conserva su capacidad de generación completa. Sorprendentemente, LLaVA-Critic-R1 no solo emerge como un crítico de alto rendimiento, sino también como un modelo de política competitivo —igualando o superando a modelos de razonamiento visión-lenguaje (VLM) especializados entrenados con datos de dominio específico en 26 benchmarks de razonamiento y comprensión visual, con una ganancia promedio de +5.7% sobre su modelo base (Qwen-2.5-VL-7B). Extendiendo este enfoque a VLMs de razonamiento fuertes existentes, obtenemos LLaVA-Critic-R1+, que avanza aún más el rendimiento de política sin sacrificar la calidad del crítico, logrando un rendimiento SoTA de 71.9 en MMMU a escala 7B. Finalmente, mostramos que la capacidad mejorada del crítico beneficia la inferencia: aplicar autocrítica durante el tiempo de prueba produce una mejora promedio de +13.8% en cinco tareas representativas de razonamiento sin entrenamiento adicional. Nuestros resultados revelan que el entrenamiento por refuerzo en datos críticos puede producir un modelo unificado que sobresale tanto en evaluación como en generación, ofreciendo un camino simple hacia sistemas multimodales escalables y auto-mejorables.
English
In vision-language modeling, critic models are typically trained to evaluate
outputs -- assigning scalar scores or pairwise preferences -- rather than to
generate responses. This separation from policy models, which produce the
responses, is so entrenched that critics are rarely considered for direct
policy use. In this work, we challenge this convention. We propose to
reorganize preference-labeled critic datasets into verifiable training signals
and perform reinforcement learning directly on a base generative model,
producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference
judgments while retaining full generation ability. Surprisingly,
LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a
competitive policy model -- matching or surpassing specialized reasoning VLMs
trained with in-domain data across 26 visual reasoning and understanding
benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B).
Extending this approach to existing strong reasoning VLMs yields
LLaVA-Critic-R1+, which further advances policy performance without sacrificing
critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale.
Finally, we show that the enhanced critic ability benefits inference: applying
self-critique at test time yields an average +13.8% improvement on five
representative reasoning tasks without additional training. Our results reveal
that RL training on critic data can produce a unified model excelling at both
evaluation and generation, offering a simple path toward scalable,
self-improving multimodal systems.