ChatPaper.aiChatPaper

ViPlan: 기호 술어와 비전-언어 모델을 활용한 시각적 계획을 위한 벤치마크

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

May 19, 2025
저자: Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen
cs.AI

초록

대형 언어 모델(Large Language Models)을 기호적 플래너(symbolic planner)와 통합하는 것은 자연어로 계획을 수립하는 것에 비해 검증 가능하고 근거 있는 계획을 얻기 위한 유망한 방향으로, 최근 연구에서는 비전-언어 모델(Vision-Language Models, VLMs)을 사용하여 이를 시각적 영역으로 확장하고 있습니다. 그러나 VLM 기반 기호적 접근 방식과 VLM을 직접 사용하여 계획을 수립하는 방법 간의 엄격한 비교는 공통 환경, 평가 프로토콜 및 모델 범위의 부재로 인해 어려움을 겪어 왔습니다. 우리는 기호적 술어(symbolic predicates)와 VLMs를 사용한 시각적 계획(Visual Planning)을 위한 첫 번째 오픈소스 벤치마크인 ViPlan을 소개합니다. ViPlan은 고전적인 Blocksworld 계획 문제의 시각적 변형과 시뮬레이션된 가정용 로봇 환경이라는 두 가지 도메인에서 점점 더 어려워지는 일련의 과제를 제공합니다. 우리는 다양한 크기의 9개의 오픈소스 VLM 패밀리와 선택된 폐쇄형 모델을 벤치마크하며, VLM 기반 기호적 계획과 모델을 직접 사용하여 행동을 제안하는 방법을 모두 평가합니다. 우리는 정확한 이미지 그라운딩(image grounding)이 중요한 Blocksworld에서는 기호적 계획이 직접적인 VLM 계획을 능가하는 반면, 상식적 지식과 오류에서 복구하는 능력이 유리한 가정용 로봇 과제에서는 그 반대임을 발견했습니다. 마지막으로, 대부분의 모델과 방법에서 Chain-of-Thought 프롬프팅을 사용하는 것이 큰 이점을 제공하지 않음을 보여주며, 이는 현재의 VLMs가 여전히 시각적 추론에 어려움을 겪고 있음을 시사합니다.
English
Integrating Large Language Models with symbolic planners is a promising direction for obtaining verifiable and grounded plans compared to planning in natural language, with recent works extending this idea to visual domains using Vision-Language Models (VLMs). However, rigorous comparison between VLM-grounded symbolic approaches and methods that plan directly with a VLM has been hindered by a lack of common environments, evaluation protocols and model coverage. We introduce ViPlan, the first open-source benchmark for Visual Planning with symbolic predicates and VLMs. ViPlan features a series of increasingly challenging tasks in two domains: a visual variant of the classic Blocksworld planning problem and a simulated household robotics environment. We benchmark nine open-source VLM families across multiple sizes, along with selected closed models, evaluating both VLM-grounded symbolic planning and using the models directly to propose actions. We find symbolic planning to outperform direct VLM planning in Blocksworld, where accurate image grounding is crucial, whereas the opposite is true in the household robotics tasks, where commonsense knowledge and the ability to recover from errors are beneficial. Finally, we show that across most models and methods, there is no significant benefit to using Chain-of-Thought prompting, suggesting that current VLMs still struggle with visual reasoning.

Summary

AI-Generated Summary

PDF121May 20, 2025