LLaVA-Critic-R1: Seu Modelo Crítico é Secretamente um Modelo de Política Poderoso
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
August 31, 2025
Autores: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI
Resumo
Na modelagem visão-linguagem, modelos críticos são tipicamente treinados para avaliar saídas -- atribuindo pontuações escalares ou preferências pareadas -- em vez de gerar respostas. Essa separação dos modelos de política, que produzem as respostas, é tão arraigada que os críticos raramente são considerados para uso direto em políticas. Neste trabalho, desafiamos essa convenção. Propomos reorganizar conjuntos de dados críticos rotulados por preferência em sinais de treinamento verificáveis e realizar aprendizado por reforço diretamente em um modelo generativo base, produzindo o LLaVA-Critic-R1, um crítico multimodal treinado para otimizar julgamentos de preferência enquanto mantém plena capacidade de geração. Surpreendentemente, o LLaVA-Critic-R1 emerge não apenas como um crítico de alto desempenho, mas também como um modelo de política competitivo -- igualando ou superando VLMs especializados em raciocínio treinados com dados de domínio específico em 26 benchmarks de raciocínio e compreensão visual, com um ganho médio de +5,7% em relação ao seu modelo base (Qwen-2.5-VL-7B). Estendendo essa abordagem para VLMs de raciocínio já fortes, obtemos o LLaVA-Critic-R1+, que avança ainda mais o desempenho da política sem sacrificar a qualidade do crítico, alcançando um desempenho SoTA de 71,9 no MMMU na escala de 7B. Por fim, mostramos que a capacidade crítica aprimorada beneficia a inferência: aplicar autocrítica no momento do teste resulta em uma melhoria média de +13,8% em cinco tarefas representativas de raciocínio sem treinamento adicional. Nossos resultados revelam que o treinamento de RL em dados críticos pode produzir um modelo unificado que se destaca tanto em avaliação quanto em geração, oferecendo um caminho simples para sistemas multimodais escaláveis e autoaperfeiçoáveis.
English
In vision-language modeling, critic models are typically trained to evaluate
outputs -- assigning scalar scores or pairwise preferences -- rather than to
generate responses. This separation from policy models, which produce the
responses, is so entrenched that critics are rarely considered for direct
policy use. In this work, we challenge this convention. We propose to
reorganize preference-labeled critic datasets into verifiable training signals
and perform reinforcement learning directly on a base generative model,
producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference
judgments while retaining full generation ability. Surprisingly,
LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a
competitive policy model -- matching or surpassing specialized reasoning VLMs
trained with in-domain data across 26 visual reasoning and understanding
benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B).
Extending this approach to existing strong reasoning VLMs yields
LLaVA-Critic-R1+, which further advances policy performance without sacrificing
critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale.
Finally, we show that the enhanced critic ability benefits inference: applying
self-critique at test time yields an average +13.8% improvement on five
representative reasoning tasks without additional training. Our results reveal
that RL training on critic data can produce a unified model excelling at both
evaluation and generation, offering a simple path toward scalable,
self-improving multimodal systems.