ChatPaper.aiChatPaper

Deux Girafes dans un Champ de Terre : Utiliser le Jeu pour Étudier la Modélisation de Situations dans les Grands Modèles Multimodaux

Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

June 20, 2024
Auteurs: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI

Résumé

Bien que la situation se soit améliorée pour les modèles textuels uniquement, il semble actuellement que les modèles multimodaux (texte et image) évoluent plus rapidement que les méthodes pour les évaluer. Dans cet article, nous adaptons un paradigme d'évaluation récemment développé pour les modèles textuels aux modèles multimodaux, à savoir l'évaluation par le jeu orienté vers un objectif (auto-joué), complétant ainsi les évaluations basées sur des références et des préférences. Plus précisément, nous définissons des jeux qui mettent à l'épreuve la capacité d'un modèle à représenter une situation à partir d'informations visuelles et à aligner ces représentations par le dialogue. Nous constatons que les plus grands modèles fermés performent plutôt bien sur les jeux que nous définissons, tandis que même les meilleurs modèles à poids ouvert peinent à les résoudre. Une analyse plus approfondie révèle que les capacités exceptionnelles de description approfondie des plus grands modèles contribuent en partie à cette performance. Il reste encore des marges de progression pour les deux types de modèles, assurant ainsi la pertinence continue du benchmark.
English
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark.

Summary

AI-Generated Summary

PDF131November 29, 2024