LLaVA-Critic: Apprendimento per Valutare i Modelli Multimodali
LLaVA-Critic: Learning to Evaluate Multimodal Models
October 3, 2024
Autori: Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
cs.AI
Abstract
Introduciamo LLaVA-Critic, il primo modello multimodale ampio open-source (LMM) progettato come valutatore generalista per valutare le prestazioni su una vasta gamma di compiti multimodali. LLaVA-Critic è addestrato utilizzando un dataset di istruzioni di critici di alta qualità che incorpora criteri di valutazione e scenari diversificati. I nostri esperimenti dimostrano l'efficacia del modello in due aree chiave: (1) LMM-come-Giudice, in cui LLaVA-Critic fornisce punteggi di valutazione affidabili, ottenendo risultati paragonabili o superiori ai modelli GPT su diversi benchmark di valutazione; e (2) Apprendimento delle Preferenze, in cui genera segnali di ricompensa per l'apprendimento delle preferenze, potenziando le capacità di allineamento del modello. Questo lavoro sottolinea il potenziale dei LMM open-source nell'autocritica e nella valutazione, aprendo la strada a futuri studi sui meccanismi di feedback di allineamento scalabili e superumani per i LMM.
English
We introduce LLaVA-Critic, the first open-source large multimodal model (LMM)
designed as a generalist evaluator to assess performance across a wide range of
multimodal tasks. LLaVA-Critic is trained using a high-quality critic
instruction-following dataset that incorporates diverse evaluation criteria and
scenarios. Our experiments demonstrate the model's effectiveness in two key
areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation
scores, performing on par with or surpassing GPT models on multiple evaluation
benchmarks; and (2) Preference Learning, where it generates reward signals for
preference learning, enhancing model alignment capabilities. This work
underscores the potential of open-source LMMs in self-critique and evaluation,
setting the stage for future research into scalable, superhuman alignment
feedback mechanisms for LMMs.