LLaVA-Critic: Aprendizado para Avaliar Modelos Multimodais
LLaVA-Critic: Learning to Evaluate Multimodal Models
October 3, 2024
Autores: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI
Resumo
Apresentamos o LLaVA-Critic, o primeiro modelo multimodal amplo de código aberto (LMM) projetado como um avaliador generalista para avaliar o desempenho em uma ampla gama de tarefas multimodais. O LLaVA-Critic é treinado usando um conjunto de dados de instruções de críticos de alta qualidade que incorpora diversos critérios e cenários de avaliação. Nossos experimentos demonstram a eficácia do modelo em duas áreas-chave: (1) LMM-como-Juíz, onde o LLaVA-Critic fornece pontuações de avaliação confiáveis, apresentando desempenho equivalente ou superior aos modelos GPT em múltiplos benchmarks de avaliação; e (2) Aprendizado de Preferência, onde ele gera sinais de recompensa para o aprendizado de preferências, aprimorando as capacidades de alinhamento do modelo. Este trabalho destaca o potencial dos LMMs de código aberto na auto-crítica e avaliação, preparando o terreno para pesquisas futuras em mecanismos de feedback de alinhamento escaláveis e super-humanos para LMMs.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM)
designed as a generalist evaluator to assess performance across a wide range of
multimodal tasks. LLaVA-Critic is trained using a high-quality critic
instruction-following dataset that incorporates diverse evaluation criteria and
scenarios. Our experiments demonstrate the model's effectiveness in two key
areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation
scores, performing on par with or surpassing GPT models on multiple evaluation
benchmarks; and (2) Preference Learning, where it generates reward signals for
preference learning, enhancing model alignment capabilities. This work
underscores the potential of open-source LMMs in self-critique and evaluation,
setting the stage for future research into scalable, superhuman alignment
feedback mechanisms for LMMs.Summary
AI-Generated Summary