ViPlan : Un benchmark pour la planification visuelle avec des prédicats symboliques et des modèles vision-langage
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models
May 19, 2025
Auteurs: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI
Résumé
L'intégration des modèles de langage de grande taille avec des planificateurs symboliques représente une direction prometteuse pour obtenir des plans vérifiables et ancrés, par rapport à la planification en langage naturel, avec des travaux récents étendant cette idée aux domaines visuels en utilisant des modèles vision-langage (VLMs). Cependant, une comparaison rigoureuse entre les approches symboliques ancrées dans les VLMs et les méthodes planifiant directement avec un VLM a été entravée par un manque d'environnements communs, de protocoles d'évaluation et de couverture de modèles. Nous présentons ViPlan, le premier benchmark open-source pour la planification visuelle avec des prédicats symboliques et des VLMs. ViPlan propose une série de tâches de difficulté croissante dans deux domaines : une variante visuelle du problème classique de planification Blocksworld et un environnement simulé de robotique domestique. Nous évaluons neuf familles de VLMs open-source de différentes tailles, ainsi que des modèles fermés sélectionnés, en comparant à la fois la planification symbolique ancrée dans les VLMs et l'utilisation directe des modèles pour proposer des actions. Nous constatons que la planification symbolique surpasse la planification directe avec les VLMs dans Blocksworld, où un ancrage précis des images est crucial, tandis que l'inverse est vrai dans les tâches de robotique domestique, où les connaissances de bon sens et la capacité à se remettre des erreurs sont bénéfiques. Enfin, nous montrons que, pour la plupart des modèles et des méthodes, il n'y a pas d'avantage significatif à utiliser l'incitation en chaîne de pensée (Chain-of-Thought), suggérant que les VLMs actuels éprouvent encore des difficultés avec le raisonnement visuel.
English
Integrating Large Language Models with symbolic planners is a promising
direction for obtaining verifiable and grounded plans compared to planning in
natural language, with recent works extending this idea to visual domains using
Vision-Language Models (VLMs). However, rigorous comparison between
VLM-grounded symbolic approaches and methods that plan directly with a VLM has
been hindered by a lack of common environments, evaluation protocols and model
coverage. We introduce ViPlan, the first open-source benchmark for Visual
Planning with symbolic predicates and VLMs. ViPlan features a series of
increasingly challenging tasks in two domains: a visual variant of the classic
Blocksworld planning problem and a simulated household robotics environment. We
benchmark nine open-source VLM families across multiple sizes, along with
selected closed models, evaluating both VLM-grounded symbolic planning and
using the models directly to propose actions. We find symbolic planning to
outperform direct VLM planning in Blocksworld, where accurate image grounding
is crucial, whereas the opposite is true in the household robotics tasks, where
commonsense knowledge and the ability to recover from errors are beneficial.
Finally, we show that across most models and methods, there is no significant
benefit to using Chain-of-Thought prompting, suggesting that current VLMs still
struggle with visual reasoning.Summary
AI-Generated Summary