ChatPaper.aiChatPaper

Zwei Giraffen auf einem Feld aus Schmutz: Die Verwendung von Spielmechaniken zur Untersuchung der Situationmodellierung in großen multimodalen Modellen.

Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

June 20, 2024
Autoren: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI

Zusammenfassung

Obwohl sich die Situation für reine Textmodelle verbessert hat, scheint es derzeit wieder der Fall zu sein, dass multimodale (Text und Bild) Modelle schneller entwickelt werden als Möglichkeiten zu ihrer Bewertung. In diesem Paper übertragen wir ein kürzlich entwickeltes Evaluationsparadigma von Textmodellen auf multimodale Modelle, nämlich die Evaluation durch zielgerichtetes Spiel (Selbstspiel), als Ergänzung zur referenzbasierten und präferenzbasierten Evaluation. Konkret definieren wir Spiele, die die Fähigkeit eines Modells herausfordern, eine Situation aus visuellen Informationen darzustellen und solche Darstellungen durch Dialoge auszurichten. Wir stellen fest, dass die größten geschlossenen Modelle recht gut in den von uns definierten Spielen abschneiden, während selbst die besten offenen Modelle mit ihnen zu kämpfen haben. Bei weiterer Analyse stellen wir fest, dass die außergewöhnlichen Fähigkeiten der größten Modelle zur tiefen Bildunterschrift einige der Leistungen antreiben. Es gibt immer noch Raum für Verbesserungen bei beiden Arten von Modellen, um die fortlaufende Relevanz des Benchmarks zu gewährleisten.
English
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark.

Summary

AI-Generated Summary

PDF131November 29, 2024