CoSPlan: Корректирующее последовательное планирование посредством инкрементных обновлений графа сцены
CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates
December 11, 2025
Авторы: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat
cs.AI
Аннотация
Крупномасштабные визуально-языковые модели (VLM) демонстрируют впечатляющие способности к сложным рассуждениям, но их потенциал в области визуального последовательного планирования, то есть выполнения многошаговых действий для достижения цели, остается в значительной степени неисследованным. Кроме того, практическое последовательное планирование часто включает неоптимальные (ошибочные) шаги, что создает для VLM проблему по их обнаружению и исправлению. Мы предлагаем бенчмарк Corrective Sequential Planning Benchmark (CoSPlan) для оценки VLM в задачах последовательного планирования на основе визуальных данных, подверженных ошибкам, в четырех областях: навигация в лабиринте, перестановка блоков, реконструкция изображений и реорганизация объектов. CoSPlan оценивает две ключевые способности: обнаружение ошибок (идентификация неоптимального действия) и завершение шага (исправление и завершение последовательности действий для достижения цели). Несмотря на использование передовых методов рассуждений, таких как Chain-of-Thought и сценочные графы, современные VLM (например, Intern-VLM и Qwen2) демонстрируют низкие результаты на CoSPlan, не способные использовать контекстные подсказки для достижения целей. Для решения этой проблемы мы предлагаем новый метод, не требующий обучения, — инкрементные обновления сценочного графа (Scene Graph Incremental updates, SGI), который вводит промежуточные шаги рассуждений между начальным и целевым состояниями. SGI помогает VLM рассуждать о последовательностях, обеспечивая средний прирост производительности на 5.2%. Помимо повышения надежности в корректирующем последовательном планировании, SGI обобщается на традиционные задачи планирования, такие как Plan-Bench и VQA.
English
Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.