CoSPlan : Planification Séquentielle Corrective par Mises à Jour Incrémentales de Graphes de Scène
CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates
December 11, 2025
papers.authors: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI
papers.abstract
Les modèles vision-langage à grande échelle (VLM) démontrent des capacités de raisonnement complexe impressionnantes, mais leur potentiel dans la planification séquentielle visuelle – c'est-à-dire l'exécution d'actions multi-étapes pour atteindre un objectif – reste largement inexploré. De plus, la planification séquentielle pratique implique souvent des étapes non optimales (erronées), ce qui met les VLM au défi de détecter et de corriger de telles étapes. Nous proposons le benchmark de planification séquentielle corrective (CoSPlan) pour évaluer les VLM dans des tâches de planification séquentielle basée sur la vision et sujettes aux erreurs, couvrant quatre domaines : la navigation dans un labyrinthe, le réarrangement de blocs, la reconstruction d'image et la réorganisation d'objets. CoSPlan évalue deux capacités clés : la Détection d'Erreurs (identifier une action non optimale) et l'Achèvement des Étapes (corriger et compléter les séquences d'actions pour atteindre l'objectif). Malgré l'utilisation de techniques de raisonnement de pointe comme le raisonnement en chaîne (Chain-of-Thought) et les graphes de scène, les VLM (par exemple, Intern-VLM et Qwen2) peinent sur CoSPlan, échouant à exploiter les indices contextuels pour atteindre les objectifs. Pour résoudre ce problème, nous proposons une nouvelle méthode sans apprentissage, les mises à jour incrémentales du graphe de scène (SGI), qui introduit des étapes de raisonnement intermédiaires entre l'état initial et l'état objectif. SGI aide les VLM à raisonner sur les séquences, entraînant un gain de performance moyen de 5,2 %. En plus d'améliorer la fiabilité dans la planification séquentielle corrective, SGI se généralise à des tâches de planification traditionnelles telles que Plan-Bench et la VQA.
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.