ChatPaper.aiChatPaper

Визуальное планирование: Думаем только с помощью изображений

Visual Planning: Let's Think Only with Images

May 16, 2025
Авторы: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLM) и их мультимодальных расширений (MLLM) значительно улучшили способность машин к рассуждению в разнообразных задачах. Однако эти модели в основном полагаются на чистый текст как средство для выражения и структурирования рассуждений, даже при наличии визуальной информации. В данной работе мы утверждаем, что язык не всегда может быть наиболее естественным или эффективным способом для рассуждений, особенно в задачах, связанных с пространственной и геометрической информацией. Вдохновленные этим, мы предлагаем новую парадигму — визуальное планирование, которое позволяет осуществлять планирование с использованием исключительно визуальных представлений, независимо от текста. В этой парадигме планирование выполняется через последовательности изображений, кодирующих пошаговые выводы в визуальной области, подобно тому, как люди рисуют или визуализируют будущие действия. Мы представляем новую структуру обучения с подкреплением — визуальное планирование через обучение с подкреплением (VPRL), усиленное GRPO для пост-обучения крупных моделей зрения, что приводит к значительным улучшениям в планировании в ряде репрезентативных задач визуальной навигации, таких как FrozenLake, Maze и MiniBehavior. Наша парадигма визуального планирования превосходит все другие варианты планирования, которые осуществляют рассуждения исключительно в текстовом пространстве. Наши результаты подтверждают, что визуальное планирование является жизнеспособной и перспективной альтернативой языковым рассуждениям, открывая новые возможности для задач, которые выигрывают от интуитивного, основанного на изображениях вывода.
English
Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.

Summary

AI-Generated Summary

PDF374May 19, 2025