CoSPlan: Korrektive sequenzielle Planung durch inkrementelle Aktualisierungen von Szenengraphen
CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates
December 11, 2025
papers.authors: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI
papers.abstract
Großskalige visuell-sprachliche Modelle (VLMs) zeigen beeindruckende Fähigkeiten im komplexen Schlussfolgern, sind jedoch im Bereich der visuellen sequenziellen Planung – der Ausführung mehrstufiger Aktionen zur Zielerreichung – weitgehend unerforscht. Zudem beinhaltet praktische sequenzielle Planung häufig nicht-optimale (fehlerhafte) Schritte, was VLMs vor die Herausforderung stellt, solche Schritte zu erkennen und zu korrigieren. Wir schlagen den Corrective Sequential Planning Benchmark (CoSPlan) vor, um VLMs in fehleranfälligen, visuell basierten sequenziellen Planungsaufgaben über vier Domänen hinweg zu evaluieren: Labyrinthnavigation, Blockneuanordnung, Bildrekonstruktion und Objektneuorganisation. CoSPlan bewertet zwei Schlüsselfertigkeiten: Fehlererkennung (Identifizieren nicht-optimaler Aktionen) und Schrittvollendung (Korrigieren und Vervollständigen von Aktionssequenzen zur Zielerreichung). Trotz des Einsatzes modernster Reasoning-Techniken wie Chain-of-Thought und Szenengraphen schneiden VLMs (z.B. Intern-VLM und Qwen2) bei CoSPlan schlecht ab, da sie nicht in der Lage sind, kontextuelle Hinweise zur Zielerreichung zu nutzen. Um dieses Problem zu adressieren, schlagen wir eine neuartige trainierungsfreie Methode vor, Scene Graph Incremental Updates (SGI), die Zwischenschritte der Schlussfolgerung zwischen Ausgangs- und Zielzustand einführt. SGI hilft VLMs, Sequenzen zu erschließen, und führt zu einer durchschnittlichen Leistungssteigerung von 5,2%. Neben der Verbesserung der Zuverlässigkeit in der korrektiven sequenziellen Planung verallgemeinert SGI auch auf traditionelle Planungsaufgaben wie Plan-Bench und VQA.
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.