ChatPaper.aiChatPaper

흙밭 속의 두 마리 기린: 대규모 멀티모달 모델의 상황 모델링 연구를 위한 게임 플레이 활용

Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

June 20, 2024
저자: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI

초록

텍스트 전용 모델의 경우 상황이 개선되었지만, 현재 다시 다중모달(텍스트 및 이미지) 모델의 발전 속도가 이를 평가하는 방법보다 빠른 것으로 보입니다. 본 논문에서는 텍스트 모델에서 최근 개발된 평가 패러다임, 즉 목표 지향적 게임(자체) 플레이를 통한 평가를 다중모달 모델에 적용하여, 참조 기반 및 선호도 기반 평가를 보완합니다. 구체적으로, 우리는 모델이 시각 정보로부터 상황을 표현하고 대화를 통해 그러한 표현을 정렬하는 능력을 시험하는 게임을 정의합니다. 우리가 정의한 게임에서 가장 큰 폐쇄형 모델들은 상당히 잘 수행하는 반면, 최고의 오픈 가중치 모델들조차도 이를 어려워하는 것을 발견했습니다. 추가 분석을 통해, 가장 큰 모델들의 탁월한 심층 캡셔닝 능력이 일부 성능을 이끌어내는 것을 확인했습니다. 두 종류의 모델 모두 성장할 여지가 여전히 남아 있어, 벤치마크의 지속적인 관련성을 보장합니다.
English
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark.

Summary

AI-Generated Summary

PDF131November 29, 2024