ChatPaper.aiChatPaper

LLaVA-Critic: Apprendimento per Valutare i Modelli Multimodali

LLaVA-Critic: Learning to Evaluate Multimodal Models

October 3, 2024
Autori: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI

Abstract

Introduciamo LLaVA-Critic, il primo modello multimodale ampio open-source (LMM) progettato come valutatore generalista per valutare le prestazioni su una vasta gamma di compiti multimodali. LLaVA-Critic è addestrato utilizzando un dataset di istruzioni di critici di alta qualità che incorpora criteri di valutazione e scenari diversificati. I nostri esperimenti dimostrano l'efficacia del modello in due aree chiave: (1) LMM-come-Giudice, in cui LLaVA-Critic fornisce punteggi di valutazione affidabili, ottenendo risultati paragonabili o superiori ai modelli GPT su diversi benchmark di valutazione; e (2) Apprendimento delle Preferenze, in cui genera segnali di ricompensa per l'apprendimento delle preferenze, potenziando le capacità di allineamento del modello. Questo lavoro sottolinea il potenziale dei LMM open-source nell'autocritica e nella valutazione, aprendo la strada a futuri studi sui meccanismi di feedback di allineamento scalabili e superumani per i LMM.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model's effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.
PDF383November 16, 2024