ChatPaper.aiChatPaper

LLaVA-Critic: Lernen, multimodale Modelle zu bewerten

LLaVA-Critic: Learning to Evaluate Multimodal Models

October 3, 2024
Autoren: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI

Zusammenfassung

Wir stellen LLaVA-Critic vor, das erste Open-Source Large Multimodal Model (LMM), das als Generalist-Evaluator konzipiert ist, um die Leistung in einer Vielzahl von multimodalen Aufgaben zu bewerten. LLaVA-Critic wird mit einem hochwertigen Kritiker-Anweisungs-Folgedatensatz trainiert, der vielfältige Bewertungskriterien und Szenarien integriert. Unsere Experimente zeigen die Wirksamkeit des Modells in zwei Schlüsselbereichen: (1) LMM-als-Richter, bei dem LLaVA-Critic zuverlässige Bewertungspunkte liefert und bei mehreren Evaluierungsbenchmarks auf Augenhöhe mit oder über den GPT-Modellen liegt; und (2) Präferenzlernen, bei dem es Belohnungssignale für das Präferenzlernen generiert und die Fähigkeiten zur Modellausrichtung verbessert. Diese Arbeit unterstreicht das Potenzial von Open-Source LMMs in der Selbstkritik und Bewertung und bereitet den Weg für zukünftige Forschung in skalierbare, übermenschliche Ausrichtungs-Feedbackmechanismen für LMMs.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model's effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.

Summary

AI-Generated Summary

PDF363November 16, 2024