CoSPlan: 장면 그래프 증분 갱신을 통한 교정 순차적 계획
CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates
December 11, 2025
저자: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI
초록
대규모 시각-언어 모델(VLM)은 인상적인 복잡한 추론 능력을 보여주지만, 목표를 향한 다단계 행동 실행인 시각적 순차 계획 분야에서는 여전히 크게 미개척된 상태입니다. 또한 실용적인 순차 계획에는 비최적(오류) 단계가 포함되는 경우가 많아, VLM이 그러한 단계를 탐지하고 수정하는 데 어려움을 겪습니다. 우리는 미로 탐색, 블록 재배치, 이미지 재구성, 객체 재구성이라는 4가지 영역에 걸쳐 오류가 발생하기 쉬운 시각 기반 순차 계획 과제에서 VLM의 성능을 평가하기 위해 Corrective Sequential Planning Benchmark(CoSPlan)를 제안합니다. CoSPlan은 오류 탐지(비최적 행동 식별)와 단계 완성(목표 달성을 위해 행동 순서를 수정 및 완료)이라는 두 가지 핵심 능력을 평가합니다. 체인 오브 사고(Chain-of-Thought) 및 장면 그래프(Scene Graph)와 같은 최첨단 추론 기술을 사용함에도 불구하고, Intern-VLM 및 Qwen2와 같은 VLM은 CoSPlan에서 컨텍스트 단서를 활용하여 목표에 도달하지 못하는 어려움을 보였습니다. 이를 해결하기 위해 우리는 초기 상태와 목표 상태 사이에 중간 추론 단계를 도입하는 새로운 비훈련(non-training) 방식인 Scene Graph Incremental updates(SGI)를 제안합니다. SGI는 VLM이 시퀀스에 대해 추론하도록 돕고, 평균 5.2%의 성능 향상을 가져옵니다. 수정적 순차 계획의 신뢰성을 향상시키는 것 외에도, SGI는 Plan-Bench 및 VQA와 같은 전통적인 계획 과제로도 일반화됩니다.
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.