ChatPaper.aiChatPaper

ViPlan: Um Benchmark para Planejamento Visual com Predicados Simbólicos e Modelos de Visão e Linguagem

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

May 19, 2025
Autores: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI

Resumo

A integração de Modelos de Linguagem de Grande Escala (LLMs) com planejadores simbólicos é uma direção promissora para obter planos verificáveis e fundamentados em comparação com o planejamento em linguagem natural, com trabalhos recentes estendendo essa ideia para domínios visuais usando Modelos de Visão e Linguagem (VLMs). No entanto, uma comparação rigorosa entre abordagens simbólicas fundamentadas em VLMs e métodos que planejam diretamente com um VLM tem sido dificultada pela falta de ambientes comuns, protocolos de avaliação e cobertura de modelos. Apresentamos o ViPlan, o primeiro benchmark de código aberto para Planejamento Visual com predicados simbólicos e VLMs. O ViPlan apresenta uma série de tarefas progressivamente desafiadoras em dois domínios: uma variante visual do clássico problema de planejamento Blocksworld e um ambiente simulado de robótica doméstica. Avaliamos nove famílias de VLMs de código aberto em vários tamanhos, juntamente com modelos fechados selecionados, comparando tanto o planejamento simbólico fundamentado em VLMs quanto o uso direto dos modelos para propor ações. Descobrimos que o planejamento simbólico supera o planejamento direto com VLMs no Blocksworld, onde a fundamentação precisa de imagens é crucial, enquanto o oposto ocorre nas tarefas de robótica doméstica, onde o conhecimento de senso comum e a capacidade de se recuperar de erros são benéficos. Por fim, mostramos que, na maioria dos modelos e métodos, não há benefício significativo no uso de prompts de Cadeia de Pensamento (Chain-of-Thought), sugerindo que os VLMs atuais ainda enfrentam dificuldades com o raciocínio visual.
English
Integrating Large Language Models with symbolic planners is a promising direction for obtaining verifiable and grounded plans compared to planning in natural language, with recent works extending this idea to visual domains using Vision-Language Models (VLMs). However, rigorous comparison between VLM-grounded symbolic approaches and methods that plan directly with a VLM has been hindered by a lack of common environments, evaluation protocols and model coverage. We introduce ViPlan, the first open-source benchmark for Visual Planning with symbolic predicates and VLMs. ViPlan features a series of increasingly challenging tasks in two domains: a visual variant of the classic Blocksworld planning problem and a simulated household robotics environment. We benchmark nine open-source VLM families across multiple sizes, along with selected closed models, evaluating both VLM-grounded symbolic planning and using the models directly to propose actions. We find symbolic planning to outperform direct VLM planning in Blocksworld, where accurate image grounding is crucial, whereas the opposite is true in the household robotics tasks, where commonsense knowledge and the ability to recover from errors are beneficial. Finally, we show that across most models and methods, there is no significant benefit to using Chain-of-Thought prompting, suggesting that current VLMs still struggle with visual reasoning.
PDF131May 20, 2025