ViPlan: Een benchmark voor visuele planning met symbolische predicaten en vision-language modellen
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models
May 19, 2025
Auteurs: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI
Samenvatting
Het integreren van grote taalmodellen met symbolische planners is een veelbelovende richting voor het verkrijgen van verifieerbare en gegronde plannen in vergelijking met plannen in natuurlijke taal, waarbij recente werken dit idee uitbreiden naar visuele domeinen met behulp van Vision-Language Models (VLMs). Echter, een rigoureuze vergelijking tussen VLM-gegronde symbolische benaderingen en methoden die direct plannen met een VLM is belemmerd door een gebrek aan gemeenschappelijke omgevingen, evaluatieprotocollen en modeldekking. Wij introduceren ViPlan, de eerste open-source benchmark voor Visueel Plannen met symbolische predicaten en VLMs. ViPlan bevat een reeks steeds uitdagender taken in twee domeinen: een visuele variant van het klassieke Blocksworld-planningsprobleem en een gesimuleerde huishoudelijke robotica-omgeving. We benchmarken negen open-source VLM-families in verschillende groottes, samen met geselecteerde gesloten modellen, waarbij we zowel VLM-gegronde symbolische planning evalueren als het direct gebruiken van de modellen om acties voor te stellen. We ontdekken dat symbolische planning beter presteert dan directe VLM-planning in Blocksworld, waar nauwkeurige beeldgronding cruciaal is, terwijl het tegenovergestelde geldt voor de huishoudelijke robotica-taken, waar gezond verstand en het vermogen om van fouten te herstellen voordelig zijn. Tot slot laten we zien dat er bij de meeste modellen en methoden geen significant voordeel is aan het gebruik van Chain-of-Thought prompting, wat suggereert dat huidige VLMs nog steeds moeite hebben met visueel redeneren.
English
Integrating Large Language Models with symbolic planners is a promising
direction for obtaining verifiable and grounded plans compared to planning in
natural language, with recent works extending this idea to visual domains using
Vision-Language Models (VLMs). However, rigorous comparison between
VLM-grounded symbolic approaches and methods that plan directly with a VLM has
been hindered by a lack of common environments, evaluation protocols and model
coverage. We introduce ViPlan, the first open-source benchmark for Visual
Planning with symbolic predicates and VLMs. ViPlan features a series of
increasingly challenging tasks in two domains: a visual variant of the classic
Blocksworld planning problem and a simulated household robotics environment. We
benchmark nine open-source VLM families across multiple sizes, along with
selected closed models, evaluating both VLM-grounded symbolic planning and
using the models directly to propose actions. We find symbolic planning to
outperform direct VLM planning in Blocksworld, where accurate image grounding
is crucial, whereas the opposite is true in the household robotics tasks, where
commonsense knowledge and the ability to recover from errors are beneficial.
Finally, we show that across most models and methods, there is no significant
benefit to using Chain-of-Thought prompting, suggesting that current VLMs still
struggle with visual reasoning.Summary
AI-Generated Summary