ING-VP: Attualmente i MLLM non sono in grado di giocare a giochi visivi semplici.
ING-VP: MLLMs cannot Play Easy Vision-based Games Yet
October 9, 2024
Autori: Haoran Zhang, Hangyu Guo, Shuyue Guo, Meng Cao, Wenhao Huang, Jiaheng Liu, Ge Zhang
cs.AI
Abstract
Man mano che i modelli linguistici multimodali di grandi dimensioni (MLLMs) continuano a dimostrare prestazioni sempre più competitive in una vasta gamma di compiti, sono stati sviluppati benchmark più intricati e completi per valutare questi modelli all'avanguardia. Questi benchmark introducono nuove sfide alle capacità fondamentali come la percezione, il ragionamento e la pianificazione. Tuttavia, i benchmark multimodali esistenti non riescono a fornire una valutazione mirata della pianificazione a più passaggi basata sulle relazioni spaziali nelle immagini. Per colmare questa lacuna, presentiamo ING-VP, il primo benchmark di Vision Planning basato su giochi interattivi, appositamente progettato per valutare l'immaginazione spaziale e le capacità di ragionamento a più passaggi dei MLLMs. ING-VP presenta 6 giochi distinti, che includono 300 livelli, ciascuno con 6 configurazioni uniche. Un singolo modello partecipa a oltre 60.000 round di interazione. Il framework del benchmark consente diverse impostazioni di confronto, tra cui input immagine-testo vs. solo testo, ragionamento a singolo passaggio vs. a più passaggi e condizioni con-storia vs. senza-storia, offrendo preziose intuizioni sulle capacità del modello. Abbiamo valutato numerosi MLLMs all'avanguardia, con il modello più performante, Claude-3.5 Sonnet, che ha ottenuto una precisione media del solo 3,37%, molto al di sotto dello standard previsto. Questo lavoro mira a fornire un framework di valutazione specializzato per promuovere i progressi nella capacità dei MLLMs nel ragionamento spaziale complesso e nella pianificazione. Il codice è disponibile pubblicamente su https://github.com/Thisisus7/ING-VP.git.
English
As multimodal large language models (MLLMs) continue to demonstrate
increasingly competitive performance across a broad spectrum of tasks, more
intricate and comprehensive benchmarks have been developed to assess these
cutting-edge models. These benchmarks introduce new challenges to core
capabilities such as perception, reasoning, and planning. However, existing
multimodal benchmarks fall short in providing a focused evaluation of
multi-step planning based on spatial relationships in images. To bridge this
gap, we present ING-VP, the first INteractive Game-based Vision Planning
benchmark, specifically designed to evaluate the spatial imagination and
multi-step reasoning abilities of MLLMs. ING-VP features 6 distinct games,
encompassing 300 levels, each with 6 unique configurations. A single model
engages in over 60,000 rounds of interaction. The benchmark framework allows
for multiple comparison settings, including image-text vs. text-only inputs,
single-step vs. multi-step reasoning, and with-history vs. without-history
conditions, offering valuable insights into the model's capabilities. We
evaluated numerous state-of-the-art MLLMs, with the highest-performing model,
Claude-3.5 Sonnet, achieving an average accuracy of only 3.37%, far below the
anticipated standard. This work aims to provide a specialized evaluation
framework to drive advancements in MLLMs' capacity for complex spatial
reasoning and planning. The code is publicly available at
https://github.com/Thisisus7/ING-VP.git.