ViPlan: Ein Benchmark für visuelle Planung mit symbolischen Prädikaten und Vision-Sprache-Modellen
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models
May 19, 2025
Autoren: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI
Zusammenfassung
Die Integration von großen Sprachmodellen mit symbolischen Planern ist ein vielversprechender Ansatz, um überprüfbare und fundierte Pläne zu erhalten, im Vergleich zur Planung in natürlicher Sprache. Neuere Arbeiten erweitern diese Idee auf visuelle Domänen durch die Verwendung von Vision-Language-Modellen (VLMs). Allerdings wurde ein rigoroser Vergleich zwischen VLM-gestützten symbolischen Ansätzen und Methoden, die direkt mit einem VLM planen, durch das Fehlen gemeinsamer Umgebungen, Bewertungsprotokolle und Modellabdeckungen erschwert. Wir stellen ViPlan vor, den ersten Open-Source-Benchmark für visuelle Planung mit symbolischen Prädikaten und VLMs. ViPlan umfasst eine Reihe von zunehmend anspruchsvollen Aufgaben in zwei Domänen: eine visuelle Variante des klassischen Blocksworld-Planungsproblems und eine simulierte Haushaltsrobotikumgebung. Wir evaluieren neun Open-Source-VLM-Familien in verschiedenen Größen sowie ausgewählte geschlossene Modelle, wobei sowohl die VLM-gestützte symbolische Planung als auch die direkte Vorschlag von Aktionen durch die Modelle bewertet wird. Wir stellen fest, dass die symbolische Planung in Blocksworld die direkte VLM-Planung übertrifft, wo eine präzise Bildverankerung entscheidend ist, während das Gegenteil bei den Haushaltsrobotikaufgaben der Fall ist, wo Alltagswissen und die Fähigkeit, sich von Fehlern zu erholen, von Vorteil sind. Schließlich zeigen wir, dass bei den meisten Modellen und Methoden kein signifikanter Nutzen durch die Verwendung von Chain-of-Thought-Prompting besteht, was darauf hindeutet, dass aktuelle VLMs immer noch Schwierigkeiten mit visuellem Denken haben.
English
Integrating Large Language Models with symbolic planners is a promising
direction for obtaining verifiable and grounded plans compared to planning in
natural language, with recent works extending this idea to visual domains using
Vision-Language Models (VLMs). However, rigorous comparison between
VLM-grounded symbolic approaches and methods that plan directly with a VLM has
been hindered by a lack of common environments, evaluation protocols and model
coverage. We introduce ViPlan, the first open-source benchmark for Visual
Planning with symbolic predicates and VLMs. ViPlan features a series of
increasingly challenging tasks in two domains: a visual variant of the classic
Blocksworld planning problem and a simulated household robotics environment. We
benchmark nine open-source VLM families across multiple sizes, along with
selected closed models, evaluating both VLM-grounded symbolic planning and
using the models directly to propose actions. We find symbolic planning to
outperform direct VLM planning in Blocksworld, where accurate image grounding
is crucial, whereas the opposite is true in the household robotics tasks, where
commonsense knowledge and the ability to recover from errors are beneficial.
Finally, we show that across most models and methods, there is no significant
benefit to using Chain-of-Thought prompting, suggesting that current VLMs still
struggle with visual reasoning.Summary
AI-Generated Summary