ChatPaper.aiChatPaper

Twee Giraffen in een Modderveld: Het Gebruik van Spel om Situatiemodellering in Grote Multimodale Modellen te Onderzoeken

Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

June 20, 2024
Auteurs: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI

Samenvatting

Hoewel de situatie voor tekstmodellen is verbeterd, lijkt het momenteel opnieuw het geval te zijn dat multimodale (tekst en beeld) modellen zich sneller ontwikkelen dan de manieren om ze te evalueren. In dit artikel brengen we een recent ontwikkeld evaluatieparadigma van tekstmodellen naar multimodale modellen, namelijk evaluatie via doelgericht spel (zelf) spelen, als aanvulling op referentie- en voorkeursgebaseerde evaluatie. Specifiek definiëren we spellen die het vermogen van een model uitdagen om een situatie te representeren op basis van visuele informatie en dergelijke representaties af te stemmen via dialoog. We constateren dat de grootste gesloten modellen behoorlijk goed presteren op de spellen die we definiëren, terwijl zelfs de beste open-weight modellen er moeite mee hebben. Bij verdere analyse ontdekken we dat de uitzonderlijke diepe beeldbeschrijvingscapaciteiten van de grootste modellen een deel van de prestaties verklaren. Er is nog ruimte voor verbetering voor beide soorten modellen, wat de blijvende relevantie van de benchmark waarborgt.
English
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark.
PDF131November 29, 2024