ChatPaper.aiChatPaper

ViPlan: Un punto de referencia para la planificación visual con predicados simbólicos y modelos de visión-lenguaje

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

May 19, 2025
Autores: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI

Resumen

La integración de modelos de lenguaje de gran escala con planificadores simbólicos es una dirección prometedora para obtener planes verificables y fundamentados en comparación con la planificación en lenguaje natural, con trabajos recientes extendiendo esta idea a dominios visuales utilizando Modelos de Lenguaje-Visión (VLMs). Sin embargo, una comparación rigurosa entre enfoques simbólicos fundamentados en VLMs y métodos que planifican directamente con un VLM se ha visto obstaculizada por la falta de entornos comunes, protocolos de evaluación y cobertura de modelos. Presentamos ViPlan, el primer punto de referencia de código abierto para Planificación Visual con predicados simbólicos y VLMs. ViPlan incluye una serie de tareas de creciente dificultad en dos dominios: una variante visual del clásico problema de planificación Blocksworld y un entorno simulado de robótica doméstica. Evaluamos nueve familias de VLMs de código abierto en múltiples tamaños, junto con modelos cerrados seleccionados, comparando tanto la planificación simbólica fundamentada en VLMs como el uso directo de los modelos para proponer acciones. Encontramos que la planificación simbólica supera a la planificación directa con VLMs en Blocksworld, donde la precisión en la fundamentación de imágenes es crucial, mientras que ocurre lo contrario en las tareas de robótica doméstica, donde el conocimiento de sentido común y la capacidad de recuperarse de errores son beneficiosos. Finalmente, demostramos que, en la mayoría de los modelos y métodos, no hay un beneficio significativo al utilizar el enfoque de Chain-of-Thought, lo que sugiere que los VLMs actuales aún tienen dificultades con el razonamiento visual.
English
Integrating Large Language Models with symbolic planners is a promising direction for obtaining verifiable and grounded plans compared to planning in natural language, with recent works extending this idea to visual domains using Vision-Language Models (VLMs). However, rigorous comparison between VLM-grounded symbolic approaches and methods that plan directly with a VLM has been hindered by a lack of common environments, evaluation protocols and model coverage. We introduce ViPlan, the first open-source benchmark for Visual Planning with symbolic predicates and VLMs. ViPlan features a series of increasingly challenging tasks in two domains: a visual variant of the classic Blocksworld planning problem and a simulated household robotics environment. We benchmark nine open-source VLM families across multiple sizes, along with selected closed models, evaluating both VLM-grounded symbolic planning and using the models directly to propose actions. We find symbolic planning to outperform direct VLM planning in Blocksworld, where accurate image grounding is crucial, whereas the opposite is true in the household robotics tasks, where commonsense knowledge and the ability to recover from errors are beneficial. Finally, we show that across most models and methods, there is no significant benefit to using Chain-of-Thought prompting, suggesting that current VLMs still struggle with visual reasoning.

Summary

AI-Generated Summary

PDF121May 20, 2025