ChatPaper.aiChatPaper

ING-VP: MLLM's kunnen nog geen eenvoudige op visie gebaseerde spellen spelen.

ING-VP: MLLMs cannot Play Easy Vision-based Games Yet

October 9, 2024
Auteurs: Haoran Zhang, Hangyu Guo, Shuyue Guo, Meng Cao, Wenhao Huang, Jiaheng Liu, Ge Zhang
cs.AI

Samenvatting

Terwijl multimodale grote taalmodellen (MLLM's) blijven aantonen dat ze steeds competitievere prestaties leveren over een breed scala van taken, zijn er meer complexe en uitgebreide benchmarks ontwikkeld om deze geavanceerde modellen te beoordelen. Deze benchmarks introduceren nieuwe uitdagingen voor kerncapaciteiten zoals perceptie, redeneren en planning. Bestaande multimodale benchmarks schieten echter tekort in het bieden van een gerichte evaluatie van meerstapsplanning op basis van ruimtelijke relaties in afbeeldingen. Om deze lacune te overbruggen, presenteren we ING-VP, de eerste INteractive Game-based Vision Planning benchmark, specifiek ontworpen om de ruimtelijke verbeelding en meerstapsredeneervaardigheden van MLLM's te evalueren. ING-VP bevat 6 verschillende spellen, met in totaal 300 niveaus, elk met 6 unieke configuraties. Een enkel model neemt deel aan meer dan 60.000 rondes van interactie. Het benchmarkframework maakt verschillende vergelijkingsinstellingen mogelijk, waaronder afbeelding-tekst vs. alleen tekst invoer, enkelvoudige vs. meerstaps redenering, en met-geschiedenis vs. zonder-geschiedenis condities, wat waardevolle inzichten biedt in de mogelijkheden van het model. We hebben talrijke toonaangevende MLLM's geëvalueerd, waarbij het best presterende model, Claude-3.5 Sonnet, een gemiddelde nauwkeurigheid behaalde van slechts 3,37%, ver onder de verwachte standaard. Dit werk heeft tot doel een gespecialiseerd evaluatiekader te bieden om de capaciteit van MLLM's voor complex ruimtelijk redeneren en plannen te bevorderen. De code is openbaar beschikbaar op https://github.com/Thisisus7/ING-VP.git.
English
As multimodal large language models (MLLMs) continue to demonstrate increasingly competitive performance across a broad spectrum of tasks, more intricate and comprehensive benchmarks have been developed to assess these cutting-edge models. These benchmarks introduce new challenges to core capabilities such as perception, reasoning, and planning. However, existing multimodal benchmarks fall short in providing a focused evaluation of multi-step planning based on spatial relationships in images. To bridge this gap, we present ING-VP, the first INteractive Game-based Vision Planning benchmark, specifically designed to evaluate the spatial imagination and multi-step reasoning abilities of MLLMs. ING-VP features 6 distinct games, encompassing 300 levels, each with 6 unique configurations. A single model engages in over 60,000 rounds of interaction. The benchmark framework allows for multiple comparison settings, including image-text vs. text-only inputs, single-step vs. multi-step reasoning, and with-history vs. without-history conditions, offering valuable insights into the model's capabilities. We evaluated numerous state-of-the-art MLLMs, with the highest-performing model, Claude-3.5 Sonnet, achieving an average accuracy of only 3.37%, far below the anticipated standard. This work aims to provide a specialized evaluation framework to drive advancements in MLLMs' capacity for complex spatial reasoning and planning. The code is publicly available at https://github.com/Thisisus7/ING-VP.git.

Summary

AI-Generated Summary

PDF82November 16, 2024