Due Giraffe in un Campo di Terra: Utilizzare il Gioco per Investigare la Modellazione delle Situazioni nei Modelli Multimodali di Grandi Dimensioni
Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models
June 20, 2024
Autori: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI
Abstract
Sebbene la situazione sia migliorata per i modelli basati esclusivamente sul testo, attualmente sembra che i modelli multimodali (testo e immagine) si sviluppino più rapidamente rispetto ai metodi per valutarli. In questo articolo, applichiamo un paradigma di valutazione recentemente sviluppato per i modelli di testo ai modelli multimodali, ovvero la valutazione attraverso il gioco orientato agli obiettivi (auto-gioco), integrando la valutazione basata su riferimenti e quella basata sulle preferenze. Nello specifico, definiamo giochi che mettono alla prova la capacità di un modello di rappresentare una situazione a partire da informazioni visive e di allineare tali rappresentazioni attraverso il dialogo. Scopriamo che i modelli chiusi più grandi performano piuttosto bene nei giochi che definiamo, mentre anche i migliori modelli open-weight faticano a superarli. Un'ulteriore analisi rivela che le eccezionali capacità di descrizione profonda dei modelli più grandi contribuiscono in parte a queste prestazioni. C'è ancora spazio per miglioramenti per entrambi i tipi di modelli, garantendo la continua rilevanza del benchmark.
English
While the situation has improved for text-only models, it again seems to be
the case currently that multimodal (text and image) models develop faster than
ways to evaluate them. In this paper, we bring a recently developed evaluation
paradigm from text models to multimodal models, namely evaluation through the
goal-oriented game (self) play, complementing reference-based and
preference-based evaluation. Specifically, we define games that challenge a
model's capability to represent a situation from visual information and align
such representations through dialogue. We find that the largest closed models
perform rather well on the games that we define, while even the best
open-weight models struggle with them. On further analysis, we find that the
exceptional deep captioning capabilities of the largest models drive some of
the performance. There is still room to grow for both kinds of models, ensuring
the continued relevance of the benchmark.