ChatPaper.aiChatPaper

LLaVA-Critic : Apprendre à Évaluer les Modèles Multimodaux

LLaVA-Critic: Learning to Evaluate Multimodal Models

October 3, 2024
Auteurs: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI

Résumé

Nous présentons LLaVA-Critic, le premier modèle multimodal large (LMM) open-source conçu comme un évaluateur généraliste pour évaluer les performances sur une large gamme de tâches multimodales. LLaVA-Critic est entraîné en utilisant un ensemble de données de suivi d'instructions de critique de haute qualité qui intègre des critères d'évaluation et des scénarios diversifiés. Nos expériences démontrent l'efficacité du modèle dans deux domaines clés : (1) LMM-comme-Juge, où LLaVA-Critic fournit des scores d'évaluation fiables, se situant au même niveau voire dépassant les modèles GPT sur plusieurs référentiels d'évaluation ; et (2) Apprentissage de Préférences, où il génère des signaux de récompense pour l'apprentissage de préférences, améliorant ainsi les capacités d'alignement du modèle. Ce travail souligne le potentiel des LMMs open-source dans l'auto-critique et l'évaluation, posant les bases pour des recherches futures sur des mécanismes d'alignement superhumains et évolutifs pour les LMMs.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model's effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.

Summary

AI-Generated Summary

PDF363November 16, 2024