ChatPaper.aiChatPaper

CoSPlan: シーングラフの増分更新による修正逐次プランニング

CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates

December 11, 2025
著者: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI

要旨

大規模視覚言語モデル(VLM)は、印象的な複雑な推論能力を示すが、視覚的逐次計画、すなわち目標に向けた多段階の行動の実行については、未だほとんど研究が進んでいない。さらに、実用的な逐次計画では、最適でない(誤った)ステップが生じることが多く、VLMがそのようなステップを検出し修正する能力が問われる。本研究では、誤りが生じやすい視覚ベースの逐次計画タスクにおいてVLMを評価するため、Corrective Sequential Planning Benchmark(CoSPlan)を提案する。CoSPlanは、迷路ナビゲーション、ブロックの並べ替え、画像再構成、オブジェクトの再編成という4つの領域にわたるタスクを対象とする。CoSPlanは、誤り検出(最適でない行動の特定)とステップ完了(行動系列を修正し目標に到達させる)という2つの重要な能力を評価する。Chain-of-Thoughtやシーングラフなどの最先端の推論技術を用いているにもかかわらず、Intern-VLMやQwen2などのVLMはCoSPlanにおいて苦戦し、文脈の手がかりを活用して目標に到達することができていない。この問題に対処するため、我々は新たな訓練不要の手法、Scene Graph Incremental updates(SGI)を提案する。SGIは初期状態と目標状態の中間にある推論ステップを導入し、VLMが系列について推論するのを助け、平均5.2%の性能向上をもたらした。修正的逐次計画の信頼性を高めることに加えて、SGIはPlan-BenchやVQAのような従来の計画タスクにも一般化可能である。
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.
PDF02December 18, 2025