CoSPlan: Planejamento Sequencial Corretivo por meio de Atualizações Incrementais do Grafo de Cena

Resumo

Os Modelos de Língua Visual (VLMs) de grande escala exibem capacidades impressionantes de raciocínio complexo, mas permanecem largamente inexplorados no planeamento sequencial visual, ou seja, na execução de ações multi-etapa para atingir um objetivo. Adicionalmente, o planeamento sequencial prático envolve frequentemente etapas não ótimas (erróneas), desafiando os VLMs a detetar e corrigir tais passos. Propomos o *Corrective Sequential Planning Benchmark* (CoSPlan) para avaliar VLMs em tarefas de planeamento sequencial baseadas em visão e propensas a erros, abrangendo 4 domínios: navegação em labirinto, rearranjo de blocos, reconstrução de imagem e reorganização de objetos. O CoSPlan avalia duas capacidades-chave: **Deteção de Erros** (identificar uma ação não ótima) e **Conclusão de Etapas** (corrigir e completar sequências de ações para atingir o objetivo). Apesar de utilizarem técnicas de raciocínio state-of-the-art, como *Chain-of-Thought* e Grafos de Cena, os VLMs (por exemplo, Intern-VLM e Qwen2) revelam dificuldades no CoSPlan, falhando em aproveitar pistas contextuais para alcançar os objetivos. Para resolver esta limitação, propomos um novo método livre de treino, **Atualizações Incrementais do Grafo de Cena (SGI)**, que introduz etapas de raciocínio intermédias entre o estado inicial e o estado objetivo. O SGI auxilia os VLMs a raciocinar sobre sequências, resultando num ganho médio de desempenho de 5,2%. Para além de melhorar a fiabilidade no planeamento sequencial corretivo, o SGI generaliza-se para tarefas de planeamento tradicionais, como o Plan-Bench e VQA.

English

Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.