ING-VP: MLLMs können noch keine einfachen, visionbasierten Spiele spielen.
ING-VP: MLLMs cannot Play Easy Vision-based Games Yet
October 9, 2024
Autoren: Haoran Zhang, Hangyu Guo, Shuyue Guo, Meng Cao, Wenhao Huang, Jiaheng Liu, Ge Zhang
cs.AI
Zusammenfassung
Da multimodale große Sprachmodelle (MLLMs) weiterhin eine zunehmend wettbewerbsfähige Leistung über ein breites Spektrum von Aufgaben zeigen, wurden komplexere und umfassendere Benchmarks entwickelt, um diese modernen Modelle zu bewerten. Diese Benchmarks stellen neue Herausforderungen an Kernfähigkeiten wie Wahrnehmung, Schlussfolgerung und Planung dar. Allerdings fehlt es bestehenden multimodalen Benchmarks an einer gezielten Bewertung von mehrstufiger Planung basierend auf räumlichen Beziehungen in Bildern. Um diese Lücke zu schließen, präsentieren wir ING-VP, den ersten interaktiven spielbasierten Vision-Planungs-Benchmark, der speziell entwickelt wurde, um die räumliche Vorstellungskraft und mehrstufige Schlussfolgerungsfähigkeiten von MLLMs zu bewerten. ING-VP umfasst 6 verschiedene Spiele mit insgesamt 300 Leveln, wobei jedes Level über 6 einzigartige Konfigurationen verfügt. Ein einziges Modell führt über 60.000 Interaktionen durch. Das Benchmark-Framework ermöglicht verschiedene Vergleichseinstellungen, darunter Bild-Text vs. nur-Text Eingaben, Ein-Schritt vs. Mehr-Schritt Schlussfolgerung und mit-Verlauf vs. ohne-Verlauf Bedingungen, um wertvolle Einblicke in die Fähigkeiten des Modells zu bieten. Wir haben zahlreiche erstklassige MLLMs evaluiert, wobei das leistungsstärkste Modell, Claude-3.5 Sonnet, eine durchschnittliche Genauigkeit von nur 3,37% erreichte, weit unter dem erwarteten Standard. Diese Arbeit zielt darauf ab, ein spezialisiertes Bewertungsframework bereitzustellen, um Fortschritte in der Fähigkeit von MLLMs für komplexe räumliche Schlussfolgerung und Planung voranzutreiben. Der Code ist öffentlich verfügbar unter https://github.com/Thisisus7/ING-VP.git.
English
As multimodal large language models (MLLMs) continue to demonstrate
increasingly competitive performance across a broad spectrum of tasks, more
intricate and comprehensive benchmarks have been developed to assess these
cutting-edge models. These benchmarks introduce new challenges to core
capabilities such as perception, reasoning, and planning. However, existing
multimodal benchmarks fall short in providing a focused evaluation of
multi-step planning based on spatial relationships in images. To bridge this
gap, we present ING-VP, the first INteractive Game-based Vision Planning
benchmark, specifically designed to evaluate the spatial imagination and
multi-step reasoning abilities of MLLMs. ING-VP features 6 distinct games,
encompassing 300 levels, each with 6 unique configurations. A single model
engages in over 60,000 rounds of interaction. The benchmark framework allows
for multiple comparison settings, including image-text vs. text-only inputs,
single-step vs. multi-step reasoning, and with-history vs. without-history
conditions, offering valuable insights into the model's capabilities. We
evaluated numerous state-of-the-art MLLMs, with the highest-performing model,
Claude-3.5 Sonnet, achieving an average accuracy of only 3.37%, far below the
anticipated standard. This work aims to provide a specialized evaluation
framework to drive advancements in MLLMs' capacity for complex spatial
reasoning and planning. The code is publicly available at
https://github.com/Thisisus7/ING-VP.git.Summary
AI-Generated Summary