ChatPaper.aiChatPaper

Planejamento Visual: Vamos Pensar Apenas com Imagens

Visual Planning: Let's Think Only with Images

May 16, 2025
Autores: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI

Resumo

Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) e suas extensões multimodais (MLLMs) têm aprimorado substancialmente o raciocínio de máquina em diversas tarefas. No entanto, esses modelos dependem predominantemente de texto puro como meio para expressar e estruturar o raciocínio, mesmo quando informações visuais estão presentes. Neste trabalho, argumentamos que a linguagem pode nem sempre ser a modalidade mais natural ou eficaz para o raciocínio, especialmente em tarefas que envolvem informações espaciais e geométricas. Motivados por isso, propomos um novo paradigma, o Planejamento Visual, que permite o planejamento por meio de representações puramente visuais, independentes de texto. Nesse paradigma, o planejamento é executado por meio de sequências de imagens que codificam inferências passo a passo no domínio visual, semelhante à forma como os humanos esboçam ou visualizam ações futuras. Introduzimos uma nova estrutura de aprendizado por reforço, o Planejamento Visual via Aprendizado por Reforço (VPRL), impulsionado pelo GRPO para pós-treinamento de grandes modelos de visão, resultando em melhorias substanciais no planejamento em uma seleção de tarefas representativas de navegação visual: FrozenLake, Maze e MiniBehavior. Nosso paradigma de planejamento visual supera todas as outras variantes de planejamento que realizam raciocínio apenas no espaço textual. Nossos resultados estabelecem o Planejamento Visual como uma alternativa viável e promissora ao raciocínio baseado em linguagem, abrindo novas possibilidades para tarefas que se beneficiam de inferências intuitivas baseadas em imagens.
English
Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.
PDF574December 5, 2025