ViPlan: Un benchmark per la pianificazione visiva con predicati simbolici e modelli visione-linguaggio
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models
May 19, 2025
Autori: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI
Abstract
L'integrazione di modelli linguistici di grandi dimensioni con pianificatori simbolici rappresenta una direzione promettente per ottenere piani verificabili e fondati rispetto alla pianificazione in linguaggio naturale, con lavori recenti che estendono questa idea ai domini visivi utilizzando modelli visione-linguaggio (VLM). Tuttavia, un confronto rigoroso tra approcci simbolici fondati su VLM e metodi che pianificano direttamente con un VLM è stato ostacolato dalla mancanza di ambienti comuni, protocolli di valutazione e copertura dei modelli. Introduciamo ViPlan, il primo benchmark open-source per la pianificazione visiva con predicati simbolici e VLM. ViPlan presenta una serie di compiti di difficoltà crescente in due domini: una variante visiva del classico problema di pianificazione Blocksworld e un ambiente simulato di robotica domestica. Valutiamo nove famiglie di VLM open-source di diverse dimensioni, insieme a modelli chiusi selezionati, confrontando sia la pianificazione simbolica fondata su VLM sia l'uso diretto dei modelli per proporre azioni. Rileviamo che la pianificazione simbolica supera la pianificazione diretta con VLM in Blocksworld, dove è cruciale un'accurata fondazione delle immagini, mentre il contrario è vero nei compiti di robotica domestica, dove la conoscenza del senso comune e la capacità di riprendersi dagli errori sono vantaggiose. Infine, dimostriamo che, nella maggior parte dei modelli e dei metodi, non vi è un beneficio significativo nell'utilizzare il prompting a catena di pensiero (Chain-of-Thought), suggerendo che gli attuali VLM continuano a faticare con il ragionamento visivo.
English
Integrating Large Language Models with symbolic planners is a promising
direction for obtaining verifiable and grounded plans compared to planning in
natural language, with recent works extending this idea to visual domains using
Vision-Language Models (VLMs). However, rigorous comparison between
VLM-grounded symbolic approaches and methods that plan directly with a VLM has
been hindered by a lack of common environments, evaluation protocols and model
coverage. We introduce ViPlan, the first open-source benchmark for Visual
Planning with symbolic predicates and VLMs. ViPlan features a series of
increasingly challenging tasks in two domains: a visual variant of the classic
Blocksworld planning problem and a simulated household robotics environment. We
benchmark nine open-source VLM families across multiple sizes, along with
selected closed models, evaluating both VLM-grounded symbolic planning and
using the models directly to propose actions. We find symbolic planning to
outperform direct VLM planning in Blocksworld, where accurate image grounding
is crucial, whereas the opposite is true in the household robotics tasks, where
commonsense knowledge and the ability to recover from errors are beneficial.
Finally, we show that across most models and methods, there is no significant
benefit to using Chain-of-Thought prompting, suggesting that current VLMs still
struggle with visual reasoning.