Planificación Visual: Pensemos Solo con Imágenes
Visual Planning: Let's Think Only with Images
May 16, 2025
Autores: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y sus extensiones multimodales (MLLMs) han mejorado sustancialmente el razonamiento automático en diversas tareas. Sin embargo, estos modelos dependen principalmente del texto puro como medio para expresar y estructurar el razonamiento, incluso cuando hay información visual presente. En este trabajo, argumentamos que el lenguaje puede no ser siempre la modalidad más natural o efectiva para el razonamiento, particularmente en tareas que involucran información espacial y geométrica. Motivados por esto, proponemos un nuevo paradigma, Planificación Visual, que permite planificar a través de representaciones puramente visuales, independientes del texto. En este paradigma, la planificación se ejecuta mediante secuencias de imágenes que codifican inferencias paso a paso en el dominio visual, de manera similar a cómo los humanos bosquejan o visualizan acciones futuras. Introducimos un novedoso marco de aprendizaje por refuerzo, Planificación Visual mediante Aprendizaje por Refuerzo (VPRL, por sus siglas en inglés), potenciado por GRPO para el ajuste posterior de grandes modelos de visión, lo que conduce a mejoras sustanciales en la planificación en una selección de tareas representativas de navegación visual: FrozenLake, Maze y MiniBehavior. Nuestro paradigma de planificación visual supera a todas las demás variantes de planificación que realizan el razonamiento únicamente en el espacio textual. Nuestros resultados establecen la Planificación Visual como una alternativa viable y prometedora al razonamiento basado en lenguaje, abriendo nuevas vías para tareas que se benefician de inferencias intuitivas basadas en imágenes.
English
Recent advancements in Large Language Models (LLMs) and their multimodal
extensions (MLLMs) have substantially enhanced machine reasoning across diverse
tasks. However, these models predominantly rely on pure text as the medium for
both expressing and structuring reasoning, even when visual information is
present. In this work, we argue that language may not always be the most
natural or effective modality for reasoning, particularly in tasks involving
spatial and geometrical information. Motivated by this, we propose a new
paradigm, Visual Planning, which enables planning through purely visual
representations, independent of text. In this paradigm, planning is executed
via sequences of images that encode step-by-step inference in the visual
domain, akin to how humans sketch or visualize future actions. We introduce a
novel reinforcement learning framework, Visual Planning via Reinforcement
Learning (VPRL), empowered by GRPO for post-training large vision models,
leading to substantial improvements in planning in a selection of
representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our
visual planning paradigm outperforms all other planning variants that conduct
reasoning in the text-only space. Our results establish Visual Planning as a
viable and promising alternative to language-based reasoning, opening new
avenues for tasks that benefit from intuitive, image-based inference.Summary
AI-Generated Summary