ING-VP: MLLM은 아직 쉬운 시각 기반 게임을 할 수 없다.
ING-VP: MLLMs cannot Play Easy Vision-based Games Yet
October 9, 2024
저자: Haoran Zhang, Hangyu Guo, Shuyue Guo, Meng Cao, Wenhao Huang, Jiaheng Liu, Ge Zhang
cs.AI
초록
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 다양한 작업 범위에서 점점 경쟁력 있는 성능을 보여주고 있는 가운데, 이러한 최첨단 모델을 평가하기 위해 더 복잡하고 포괄적인 벤치마크가 개발되었습니다. 이러한 벤치마크는 지각, 추론 및 계획과 같은 핵심 능력에 대한 새로운 도전 과제를 제시합니다. 그러나 기존의 다중 모달 벤치마크는 이미지 내 공간적 관계를 기반으로 한 다단계 계획에 대한 집중적인 평가를 제공하지 못하는 한계가 있습니다. 이 간극을 메우기 위해 우리는 MLLMs의 공간 상상력과 다단계 추론 능력을 평가하기 위해 특별히 설계된 ING-VP, 첫 번째 INteractive Game-based Vision Planning 벤치마크를 제안합니다. ING-VP는 6가지 독특한 게임을 포함하며, 각각 6가지 고유한 구성을 갖추고 있습니다. 단일 모델은 60,000회 이상의 상호 작용을 수행합니다. 이 벤치마크 프레임워크는 이미지-텍스트 대 텍스트만 입력, 단일 단계 대 다단계 추론, 그리고 과거 기록 포함 대 미포함과 같은 여러 비교 설정을 허용하여 모델의 능력에 대한 유용한 통찰을 제공합니다. 우리는 여러 최첨단 MLLMs를 평가했으며, 최고 성능 모델인 Claude-3.5 Sonnet은 평균 정확도가 예상보다 훨씬 낮은 3.37%를 달성했습니다. 본 연구는 복잡한 공간 추론 및 계획 능력을 강화하기 위한 MLLMs의 전문 평가 프레임워크를 제공하는 것을 목표로 합니다. 코드는 https://github.com/Thisisus7/ING-VP.git에서 공개적으로 이용 가능합니다.
English
As multimodal large language models (MLLMs) continue to demonstrate
increasingly competitive performance across a broad spectrum of tasks, more
intricate and comprehensive benchmarks have been developed to assess these
cutting-edge models. These benchmarks introduce new challenges to core
capabilities such as perception, reasoning, and planning. However, existing
multimodal benchmarks fall short in providing a focused evaluation of
multi-step planning based on spatial relationships in images. To bridge this
gap, we present ING-VP, the first INteractive Game-based Vision Planning
benchmark, specifically designed to evaluate the spatial imagination and
multi-step reasoning abilities of MLLMs. ING-VP features 6 distinct games,
encompassing 300 levels, each with 6 unique configurations. A single model
engages in over 60,000 rounds of interaction. The benchmark framework allows
for multiple comparison settings, including image-text vs. text-only inputs,
single-step vs. multi-step reasoning, and with-history vs. without-history
conditions, offering valuable insights into the model's capabilities. We
evaluated numerous state-of-the-art MLLMs, with the highest-performing model,
Claude-3.5 Sonnet, achieving an average accuracy of only 3.37%, far below the
anticipated standard. This work aims to provide a specialized evaluation
framework to drive advancements in MLLMs' capacity for complex spatial
reasoning and planning. The code is publicly available at
https://github.com/Thisisus7/ING-VP.git.Summary
AI-Generated Summary