LLaVA-Critic: Aprendizaje para Evaluar Modelos Multimodales
LLaVA-Critic: Learning to Evaluate Multimodal Models
October 3, 2024
Autores: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI
Resumen
Presentamos LLaVA-Critic, el primer modelo multimodal grande de código abierto (LMM, por sus siglas en inglés) diseñado como un evaluador general para evaluar el rendimiento en una amplia gama de tareas multimodales. LLaVA-Critic se entrena utilizando un conjunto de datos de instrucciones de críticos de alta calidad que incorpora diversos criterios de evaluación y escenarios. Nuestros experimentos demuestran la efectividad del modelo en dos áreas clave: (1) LMM-como-Juez, donde LLaVA-Critic proporciona puntuaciones de evaluación confiables, desempeñándose al nivel o superando a los modelos GPT en múltiples pruebas de evaluación; y (2) Aprendizaje de Preferencias, donde genera señales de recompensa para el aprendizaje de preferencias, mejorando las capacidades de alineación del modelo. Este trabajo resalta el potencial de los LMM de código abierto en la auto-crítica y evaluación, sentando las bases para futuras investigaciones sobre mecanismos de retroalimentación de alineación escalables y superhumanos para LMMs.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM)
designed as a generalist evaluator to assess performance across a wide range of
multimodal tasks. LLaVA-Critic is trained using a high-quality critic
instruction-following dataset that incorporates diverse evaluation criteria and
scenarios. Our experiments demonstrate the model's effectiveness in two key
areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation
scores, performing on par with or surpassing GPT models on multiple evaluation
benchmarks; and (2) Preference Learning, where it generates reward signals for
preference learning, enhancing model alignment capabilities. This work
underscores the potential of open-source LMMs in self-critique and evaluation,
setting the stage for future research into scalable, superhuman alignment
feedback mechanisms for LMMs.Summary
AI-Generated Summary