ChatPaper.aiChatPaper

Duas Girafas em um Campo de Terra: Utilizando o Jogo para Investigar a Modelagem de Situações em Modelos Multimodais Grandes

Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

June 20, 2024
Autores: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI

Resumo

Embora a situação tenha melhorado para modelos apenas de texto, parece novamente ser o caso atual que os modelos multimodais (texto e imagem) se desenvolvem mais rapidamente do que as formas de avaliá-los. Neste artigo, trazemos um paradigma de avaliação recentemente desenvolvido para modelos textuais para modelos multimodais, nomeadamente a avaliação através do jogo orientado para objetivos (auto) jogado, complementando a avaliação baseada em referência e preferência. Especificamente, definimos jogos que desafiam a capacidade de um modelo de representar uma situação a partir de informações visuais e alinhar tais representações por meio de diálogo. Descobrimos que os maiores modelos fechados se saem bastante bem nos jogos que definimos, enquanto até mesmo os melhores modelos de peso aberto têm dificuldades com eles. Em uma análise mais aprofundada, descobrimos que as capacidades excepcionais de legendagem profunda dos maiores modelos impulsionam parte do desempenho. Ainda há espaço para crescimento para ambos os tipos de modelos, garantindo a contínua relevância do benchmark.
English
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark.
PDF131November 29, 2024