ChatPaper.aiChatPaper

LLaVA-Critic: Aprendizado para Avaliar Modelos Multimodais

LLaVA-Critic: Learning to Evaluate Multimodal Models

October 3, 2024
Autores: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI

Resumo

Apresentamos o LLaVA-Critic, o primeiro modelo multimodal amplo de código aberto (LMM) projetado como um avaliador generalista para avaliar o desempenho em uma ampla gama de tarefas multimodais. O LLaVA-Critic é treinado usando um conjunto de dados de instruções de críticos de alta qualidade que incorpora diversos critérios e cenários de avaliação. Nossos experimentos demonstram a eficácia do modelo em duas áreas-chave: (1) LMM-como-Juíz, onde o LLaVA-Critic fornece pontuações de avaliação confiáveis, apresentando desempenho equivalente ou superior aos modelos GPT em múltiplos benchmarks de avaliação; e (2) Aprendizado de Preferência, onde ele gera sinais de recompensa para o aprendizado de preferências, aprimorando as capacidades de alinhamento do modelo. Este trabalho destaca o potencial dos LMMs de código aberto na auto-crítica e avaliação, preparando o terreno para pesquisas futuras em mecanismos de feedback de alinhamento escaláveis e super-humanos para LMMs.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model's effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.

Summary

AI-Generated Summary

PDF363November 16, 2024