ChatPaper.aiChatPaper

Две жирафы на земляном поле: использование игрового процесса для исследования моделирования ситуаций в крупных мультимодальных моделях

Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

June 20, 2024
Авторы: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI

Аннотация

Хотя ситуация улучшилась для моделей только для текста, снова кажется, что в настоящее время мультимодальные модели (текст и изображение) развиваются быстрее, чем способы их оценки. В этой статье мы переносим недавно разработанную парадигму оценки из текстовых моделей на мультимодальные модели, а именно оценку через игру с ориентацией на цель (само)игру, дополняя оценку на основе ссылок и предпочтений. Конкретно, мы определяем игры, которые ставят под сомнение способность модели представлять ситуацию на основе визуальной информации и выстраивать такие представления через диалог. Мы обнаружили, что крупные закрытые модели довольно хорошо справляются с играми, которые мы определяем, в то время как даже лучшие модели с открытым весом испытывают затруднения. После дальнейшего анализа мы обнаружили, что исключительные возможности глубокого описания крупных моделей способствуют некоторым результатам. Для обоих типов моделей еще есть место для роста, обеспечивая дальнейшую актуальность эталона.
English
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark.

Summary

AI-Generated Summary

PDF131November 29, 2024