ChatPaper.aiChatPaper

LLaVA-Critic-R1: Ваша модель критика на самом деле является мощной моделью политики

LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

August 31, 2025
Авторы: Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
cs.AI

Аннотация

В моделировании на стыке зрения и языка критические модели обычно обучаются для оценки выходных данных — присвоения скалярных оценок или парных предпочтений — а не для генерации ответов. Это разделение с моделями политик, которые производят ответы, настолько устоялось, что критические модели редко рассматриваются для непосредственного использования в качестве политик. В данной работе мы бросаем вызов этой традиции. Мы предлагаем реорганизовать наборы данных с метками предпочтений в проверяемые обучающие сигналы и проводить обучение с подкреплением непосредственно на базовой генеративной модели, создавая LLaVA-Critic-R1 — мультимодальную критическую модель, обученную оптимизировать суждения о предпочтениях, сохраняя при этом полную способность к генерации. Удивительно, но LLaVA-Critic-R1 оказывается не только высокопроизводительной критической моделью, но и конкурентоспособной моделью политики — она соответствует или превосходит специализированные модели визуального мышления (VLMs), обученные на данных из предметной области, на 26 бенчмарках визуального мышления и понимания, с средним приростом +5,7% по сравнению с базовой моделью (Qwen-2.5-VL-7B). Расширение этого подхода на существующие сильные модели визуального мышления приводит к созданию LLaVA-Critic-R1+, которая дополнительно улучшает производительность политики без ущерба для качества критической модели, достигая рекордного результата 71,9 на MMMU для масштаба 7B. Наконец, мы показываем, что улучшенная способность критической модели приносит пользу на этапе вывода: применение самокритики во время тестирования дает среднее улучшение +13,8% на пяти репрезентативных задачах мышления без дополнительного обучения. Наши результаты показывают, что обучение с подкреплением на данных критической модели может создать унифицированную модель, превосходящую как в оценке, так и в генерации, предлагая простой путь к масштабируемым, самоулучшающимся мультимодальным системам.
English
In vision-language modeling, critic models are typically trained to evaluate outputs -- assigning scalar scores or pairwise preferences -- rather than to generate responses. This separation from policy models, which produce the responses, is so entrenched that critics are rarely considered for direct policy use. In this work, we challenge this convention. We propose to reorganize preference-labeled critic datasets into verifiable training signals and perform reinforcement learning directly on a base generative model, producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference judgments while retaining full generation ability. Surprisingly, LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a competitive policy model -- matching or surpassing specialized reasoning VLMs trained with in-domain data across 26 visual reasoning and understanding benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B). Extending this approach to existing strong reasoning VLMs yields LLaVA-Critic-R1+, which further advances policy performance without sacrificing critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale. Finally, we show that the enhanced critic ability benefits inference: applying self-critique at test time yields an average +13.8% improvement on five representative reasoning tasks without additional training. Our results reveal that RL training on critic data can produce a unified model excelling at both evaluation and generation, offering a simple path toward scalable, self-improving multimodal systems.
PDF711September 3, 2025