ChatPaper.aiChatPaper

CoSPlan: Correctief Sequentieel Plannen via Incrementele Updates van Scenegrafen

CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates

December 11, 2025
Auteurs: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI

Samenvatting

Grootschalige Vision-Language Models (VLMs) vertonen indrukwekkende capaciteiten voor complex redeneren, maar hun mogelijkheden op het gebied van visuele sequentiële planning – het uitvoeren van meerstapsacties om een doel te bereiken – zijn grotendeels onontgonnen. Bovendien omvat praktische sequentiële planning vaak niet-optimale (foutieve) stappen, wat een uitdaging vormt voor VLMs om dergelijke stappen te detecteren en te corrigeren. Wij stellen de Corrective Sequential Planning Benchmark (CoSPlan) voor om VLMs te evalueren in foutgevoelige, op visie gebaseerde sequentiële planningstaken binnen 4 domeinen: doolhofnavigatie, blokherrangschikking, beeldreconstructie en objectreorganisatie. CoSPlan beoordeelt twee cruciale vaardigheden: Foutdetectie (het identificeren van niet-optimale acties) en Stapvoltooiing (het corrigeren en voltooien van actiereeksen om het doel te bereiken). Ondanks het gebruik van state-of-the-art redeneertechnieken zoals Chain-of-Thought en Scene Graphs, presteren VLMs (bijv. Intern-VLM en Qwen2) slecht op CoSPlan; zij slagen er niet in contextuele aanwijzingen te benutten om doelen te bereiken. Om dit aan te pakken, stellen we een nieuwe trainingsvrije methode voor, Scene Graph Incremental updates (SGI), die tussenliggende redeneerstappen introduceert tussen de initiële en doeltoestanden. SGI helpt VLMs te redeneren over sequenties, wat resulteert in een gemiddelde prestatieverbetering van 5,2%. Naast het verbeteren van de betrouwbaarheid bij correctieve sequentiële planning, generaliseert SGI naar traditionele planningstaken zoals Plan-Bench en VQA.
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.
PDF02December 18, 2025