ChatPaper.aiChatPaper

LLaVA-Critic: Leren om Multimodale Modellen te Evalueren

LLaVA-Critic: Learning to Evaluate Multimodal Models

October 3, 2024
Auteurs: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI

Samenvatting

We introduceren LLaVA-Critic, het eerste open-source grote multimodale model (LMM) dat is ontworpen als een generalistische evaluator om prestaties te beoordelen over een breed scala van multimodale taken. LLaVA-Critic is getraind met behulp van een hoogwaardige criticus-instructievolgdataset die diverse evaluatiecriteria en scenario's omvat. Onze experimenten tonen de effectiviteit van het model aan op twee belangrijke gebieden: (1) LMM-als-rechter, waar LLaVA-Critic betrouwbare evaluatiescores levert, presterend op hetzelfde niveau als of beter dan GPT-modellen op meerdere evaluatiebenchmarks; en (2) Voorkeursleren, waar het beloningssignalen genereert voor voorkeursleren, waardoor de mogelijkheden voor modeluitlijning worden verbeterd. Dit werk benadrukt het potentieel van open-source LMM's in zelfkritiek en evaluatie, en legt de basis voor toekomstig onderzoek naar schaalbare, bovenmenselijke uitlijningsfeedbackmechanismen voor LMM's.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model's effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.

Summary

AI-Generated Summary

PDF363November 16, 2024