ChatPaper.aiChatPaper

CoSPlan: Planificación Secuencial Correctiva mediante Actualizaciones Incrementales del Grafo de Escena

CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates

December 11, 2025
Autores: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI

Resumen

Los Modelos de Visión y Lenguaje a Gran Escala (VLMs) exhiben capacidades impresionantes de razonamiento complejo, pero su aplicación en la planificación visual secuencial —es decir, la ejecución de acciones multi-paso para alcanzar un objetivo— sigue en gran medida inexplorada. Además, la planificación secuencial práctica a menudo implica pasos no óptimos (erróneos), lo que plantea un desafío para que los VLMs detecten y corrijan dichos pasos. Proponemos el Benchmark de Planificación Secuencial Correctiva (CoSPlan) para evaluar VLMs en tareas de planificación secuencial basadas en visión y propensas a errores, en cuatro dominios: navegación en laberintos, reordenamiento de bloques, reconstrucción de imágenes y reorganización de objetos. CoSPlan evalúa dos habilidades clave: Detección de Errores (identificar acciones no óptimas) y Finalización de Pasos (corregir y completar secuencias de acciones para alcanzar el objetivo). A pesar de utilizar técnicas de razonamiento de vanguardia como Cadenas de Pensamiento (Chain-of-Thought) y Grafos de Escena, los VLMs (por ejemplo, Intern-VLM y Qwen2) presentan dificultades en CoSPlan, fallando en aprovechar pistas contextuales para alcanzar las metas. Para abordar esto, proponemos un nuevo método libre de entrenamiento, Actualizaciones Incrementales del Grafo de Escena (SGI), que introduce pasos de razonamiento intermedios entre el estado inicial y el estado objetivo. SGI ayuda a los VLMs a razonar sobre secuencias, logrando una mejora promedio en el rendimiento del 5.2%. Además de mejorar la confiabilidad en la planificación secuencial correctiva, SGI se generaliza a tareas de planificación tradicionales como Plan-Bench y VQA.
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.
PDF02December 18, 2025