ING-VP: MLLMs können noch keine einfachen, visionbasierten Spiele spielen.

papers.abstract

Da multimodale große Sprachmodelle (MLLMs) weiterhin eine zunehmend wettbewerbsfähige Leistung über ein breites Spektrum von Aufgaben zeigen, wurden komplexere und umfassendere Benchmarks entwickelt, um diese modernen Modelle zu bewerten. Diese Benchmarks stellen neue Herausforderungen an Kernfähigkeiten wie Wahrnehmung, Schlussfolgerung und Planung dar. Allerdings fehlt es bestehenden multimodalen Benchmarks an einer gezielten Bewertung von mehrstufiger Planung basierend auf räumlichen Beziehungen in Bildern. Um diese Lücke zu schließen, präsentieren wir ING-VP, den ersten interaktiven spielbasierten Vision-Planungs-Benchmark, der speziell entwickelt wurde, um die räumliche Vorstellungskraft und mehrstufige Schlussfolgerungsfähigkeiten von MLLMs zu bewerten. ING-VP umfasst 6 verschiedene Spiele mit insgesamt 300 Leveln, wobei jedes Level über 6 einzigartige Konfigurationen verfügt. Ein einziges Modell führt über 60.000 Interaktionen durch. Das Benchmark-Framework ermöglicht verschiedene Vergleichseinstellungen, darunter Bild-Text vs. nur-Text Eingaben, Ein-Schritt vs. Mehr-Schritt Schlussfolgerung und mit-Verlauf vs. ohne-Verlauf Bedingungen, um wertvolle Einblicke in die Fähigkeiten des Modells zu bieten. Wir haben zahlreiche erstklassige MLLMs evaluiert, wobei das leistungsstärkste Modell, Claude-3.5 Sonnet, eine durchschnittliche Genauigkeit von nur 3,37% erreichte, weit unter dem erwarteten Standard. Diese Arbeit zielt darauf ab, ein spezialisiertes Bewertungsframework bereitzustellen, um Fortschritte in der Fähigkeit von MLLMs für komplexe räumliche Schlussfolgerung und Planung voranzutreiben. Der Code ist öffentlich verfügbar unter https://github.com/Thisisus7/ING-VP.git.

English

As multimodal large language models (MLLMs) continue to demonstrate increasingly competitive performance across a broad spectrum of tasks, more intricate and comprehensive benchmarks have been developed to assess these cutting-edge models. These benchmarks introduce new challenges to core capabilities such as perception, reasoning, and planning. However, existing multimodal benchmarks fall short in providing a focused evaluation of multi-step planning based on spatial relationships in images. To bridge this gap, we present ING-VP, the first INteractive Game-based Vision Planning benchmark, specifically designed to evaluate the spatial imagination and multi-step reasoning abilities of MLLMs. ING-VP features 6 distinct games, encompassing 300 levels, each with 6 unique configurations. A single model engages in over 60,000 rounds of interaction. The benchmark framework allows for multiple comparison settings, including image-text vs. text-only inputs, single-step vs. multi-step reasoning, and with-history vs. without-history conditions, offering valuable insights into the model's capabilities. We evaluated numerous state-of-the-art MLLMs, with the highest-performing model, Claude-3.5 Sonnet, achieving an average accuracy of only 3.37%, far below the anticipated standard. This work aims to provide a specialized evaluation framework to drive advancements in MLLMs' capacity for complex spatial reasoning and planning. The code is publicly available at https://github.com/Thisisus7/ING-VP.git.

ING-VP: MLLMs können noch keine einfachen, visionbasierten Spiele spielen.

ING-VP: MLLMs cannot Play Easy Vision-based Games Yet

papers.abstract

Support