ViPlan: Бенчмарк для визуального планирования с использованием символических предикатов и моделей, объединяющих зрение и язык
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models
May 19, 2025
Авторы: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI
Аннотация
Интеграция больших языковых моделей с символическими планировщиками представляет собой перспективное направление для получения проверяемых и обоснованных планов по сравнению с планированием на естественном языке, при этом последние работы расширяют эту идею на визуальные области с использованием моделей "Vision-Language" (VLM). Однако строгое сравнение между символическими подходами, основанными на VLM, и методами, которые планируют напрямую с использованием VLM, затруднено из-за отсутствия общих сред, протоколов оценки и охвата моделей. Мы представляем ViPlan — первый открытый бенчмарк для визуального планирования с символическими предикатами и VLM. ViPlan включает серию задач возрастающей сложности в двух областях: визуальный вариант классической задачи планирования Blocksworld и симулированная среда домашней робототехники. Мы тестируем девять семейств открытых VLM различных размеров, а также выбранные закрытые модели, оценивая как символическое планирование, основанное на VLM, так и прямое предложение действий с использованием моделей. Мы обнаруживаем, что символическое планирование превосходит прямое VLM-планирование в Blocksworld, где точное визуальное обоснование имеет решающее значение, тогда как в задачах домашней робототехники преимущество на стороне прямого VLM-планирования, где полезны здравый смысл и способность восстанавливаться после ошибок. Наконец, мы показываем, что для большинства моделей и методов использование подсказок "Chain-of-Thought" не дает значительного преимущества, что свидетельствует о том, что современные VLM всё ещё испытывают трудности с визуальным рассуждением.
English
Integrating Large Language Models with symbolic planners is a promising
direction for obtaining verifiable and grounded plans compared to planning in
natural language, with recent works extending this idea to visual domains using
Vision-Language Models (VLMs). However, rigorous comparison between
VLM-grounded symbolic approaches and methods that plan directly with a VLM has
been hindered by a lack of common environments, evaluation protocols and model
coverage. We introduce ViPlan, the first open-source benchmark for Visual
Planning with symbolic predicates and VLMs. ViPlan features a series of
increasingly challenging tasks in two domains: a visual variant of the classic
Blocksworld planning problem and a simulated household robotics environment. We
benchmark nine open-source VLM families across multiple sizes, along with
selected closed models, evaluating both VLM-grounded symbolic planning and
using the models directly to propose actions. We find symbolic planning to
outperform direct VLM planning in Blocksworld, where accurate image grounding
is crucial, whereas the opposite is true in the household robotics tasks, where
commonsense knowledge and the ability to recover from errors are beneficial.
Finally, we show that across most models and methods, there is no significant
benefit to using Chain-of-Thought prompting, suggesting that current VLMs still
struggle with visual reasoning.Summary
AI-Generated Summary