Dos jirafas en un campo de tierra: Uso del juego para investigar el modelado de situaciones en modelos multimodales de gran escala
Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models
June 20, 2024
Autores: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI
Resumen
Si bien la situación ha mejorado para los modelos de solo texto, actualmente parece ser nuevamente el caso que los modelos multimodales (texto e imagen) se desarrollan más rápido que las formas de evaluarlos. En este artículo, trasladamos un paradigma de evaluación recientemente desarrollado para modelos de texto a modelos multimodales, específicamente la evaluación a través del juego orientado a objetivos (autojuego), complementando la evaluación basada en referencias y en preferencias. En concreto, definimos juegos que desafían la capacidad de un modelo para representar una situación a partir de información visual y alinear dichas representaciones mediante el diálogo. Encontramos que los modelos cerrados más grandes tienen un desempeño bastante bueno en los juegos que definimos, mientras que incluso los mejores modelos de pesos abiertos tienen dificultades con ellos. Tras un análisis más profundo, descubrimos que las excepcionales capacidades de descripción profunda de los modelos más grandes impulsan parte de su rendimiento. Aún hay margen de mejora para ambos tipos de modelos, lo que asegura la relevancia continua del punto de referencia.
English
While the situation has improved for text-only models, it again seems to be
the case currently that multimodal (text and image) models develop faster than
ways to evaluate them. In this paper, we bring a recently developed evaluation
paradigm from text models to multimodal models, namely evaluation through the
goal-oriented game (self) play, complementing reference-based and
preference-based evaluation. Specifically, we define games that challenge a
model's capability to represent a situation from visual information and align
such representations through dialogue. We find that the largest closed models
perform rather well on the games that we define, while even the best
open-weight models struggle with them. On further analysis, we find that the
exceptional deep captioning capabilities of the largest models drive some of
the performance. There is still room to grow for both kinds of models, ensuring
the continued relevance of the benchmark.Summary
AI-Generated Summary