ChatPaper.aiChatPaper

CoSPlan: Pianificazione Sequenziale Correttiva tramite Aggiornamenti Incrementali del Grafo della Scena

CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates

December 11, 2025
Autori: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI

Abstract

I modelli visione-linguaggio su larga scala (VLM) mostrano impressionanti capacità di ragionamento complesso, ma rimangono in gran parte inesplorati nella pianificazione sequenziale visiva, ovvero nell'esecuzione di azioni multi-step finalizzate a un obiettivo. Inoltre, la pianificazione sequenziale pratica spesso coinvolge step non ottimali (errati), mettendo alla prova i VLM nel rilevare e correggere tali passaggi. Proponiamo il benchmark Corrective Sequential Planning (CoSPlan) per valutare i VLM in compiti di pianificazione sequenziale basati sulla visione e soggetti a errori, attraverso 4 domini: navigazione in labirinto, riarrangiamento di blocchi, ricostruzione di immagini e riorganizzazione di oggetti. CoSPlan valuta due abilità chiave: Rilevamento Errori (identificare un'azione non ottimale) e Completamento Step (correggere e completare le sequenze di azioni per raggiungere l'obiettivo). Nonostante l'uso di tecniche di ragionamento all'avanguardia come Chain-of-Thought e Scene Graph, i VLM (ad es. Intern-VLM e Qwen2) mostrano difficoltà su CoSPlan, fallendo nel sfruttare gli indizi contestuali per raggiungere gli obiettivi. Per affrontare questo problema, proponiamo un nuovo metodo senza addestramento, Scene Graph Incremental updates (SGI), che introduce passaggi di ragionamento intermedi tra lo stato iniziale e quello obiettivo. SGI aiuta i VLM a ragionare sulle sequenze, producendo un miglioramento prestazionale medio del 5.2%. Oltre a potenziare l'affidabilità nella pianificazione sequenziale correttiva, SGI generalizza a compiti di pianificazione tradizionali come Plan-Bench e VQA.
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.
PDF02December 18, 2025