土のフィールドに立つ2頭のキリン:大規模マルチモーダルモデルの状況モデリングを調査するためのゲームプレイ活用
Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models
June 20, 2024
著者: Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen
cs.AI
要旨
テキストのみのモデルについては状況が改善されてきたものの、現在でもマルチモーダル(テキストと画像)モデルの開発は、それらを評価する方法よりも速いペースで進んでいるように見受けられます。本論文では、テキストモデルからマルチモーダルモデルへと最近開発された評価パラダイム、すなわち目標指向のゲーム(自己)プレイを通じた評価を導入し、参照ベースおよび選好ベースの評価を補完します。具体的には、視覚情報から状況を表現し、その表現を対話を通じて整合させるモデルの能力を試すゲームを定義します。私たちが定義したゲームにおいて、最大規模のクローズドモデルはかなり良好なパフォーマンスを示す一方で、最良のオープンウェイトモデルでさえそれらに苦戦することがわかりました。さらに分析を進めると、最大規模のモデルが持つ卓越した深層キャプショニング能力が、そのパフォーマンスの一部を支えていることが明らかになりました。両タイプのモデルにはまだ成長の余地があり、ベンチマークの継続的な重要性が保証されています。
English
While the situation has improved for text-only models, it again seems to be
the case currently that multimodal (text and image) models develop faster than
ways to evaluate them. In this paper, we bring a recently developed evaluation
paradigm from text models to multimodal models, namely evaluation through the
goal-oriented game (self) play, complementing reference-based and
preference-based evaluation. Specifically, we define games that challenge a
model's capability to represent a situation from visual information and align
such representations through dialogue. We find that the largest closed models
perform rather well on the games that we define, while even the best
open-weight models struggle with them. On further analysis, we find that the
exceptional deep captioning capabilities of the largest models drive some of
the performance. There is still room to grow for both kinds of models, ensuring
the continued relevance of the benchmark.Summary
AI-Generated Summary