Pianificazione Visiva: Pensiamo Solo con le Immagini
Visual Planning: Let's Think Only with Images
May 16, 2025
Autori: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) e nelle loro estensioni multimodali (MLLM) hanno notevolmente migliorato il ragionamento automatico in una vasta gamma di compiti. Tuttavia, questi modelli si basano principalmente sul puro testo come mezzo per esprimere e strutturare il ragionamento, anche quando sono presenti informazioni visive. In questo lavoro, sosteniamo che il linguaggio potrebbe non essere sempre la modalità più naturale o efficace per il ragionamento, specialmente in compiti che coinvolgono informazioni spaziali e geometriche. Motivati da ciò, proponiamo un nuovo paradigma, il Pianificazione Visiva, che consente la pianificazione attraverso rappresentazioni puramente visive, indipendenti dal testo. In questo paradigma, la pianificazione viene eseguita tramite sequenze di immagini che codificano inferenze passo-passo nel dominio visivo, analogamente a come gli esseri umani schizzano o visualizzano azioni future. Introduciamo un nuovo framework di apprendimento per rinforzo, Pianificazione Visiva tramite Apprendimento per Rinforzo (VPRL), potenziato da GRPO per il post-addestramento di grandi modelli visivi, portando a miglioramenti significativi nella pianificazione in una selezione di compiti rappresentativi di navigazione visiva, come FrozenLake, Maze e MiniBehavior. Il nostro paradigma di pianificazione visiva supera tutte le altre varianti di pianificazione che conducono il ragionamento esclusivamente nello spazio testuale. I nostri risultati stabiliscono la Pianificazione Visiva come un'alternativa valida e promettente al ragionamento basato sul linguaggio, aprendo nuove strade per compiti che beneficiano di inferenze intuitive basate sulle immagini.
English
Recent advancements in Large Language Models (LLMs) and their multimodal
extensions (MLLMs) have substantially enhanced machine reasoning across diverse
tasks. However, these models predominantly rely on pure text as the medium for
both expressing and structuring reasoning, even when visual information is
present. In this work, we argue that language may not always be the most
natural or effective modality for reasoning, particularly in tasks involving
spatial and geometrical information. Motivated by this, we propose a new
paradigm, Visual Planning, which enables planning through purely visual
representations, independent of text. In this paradigm, planning is executed
via sequences of images that encode step-by-step inference in the visual
domain, akin to how humans sketch or visualize future actions. We introduce a
novel reinforcement learning framework, Visual Planning via Reinforcement
Learning (VPRL), empowered by GRPO for post-training large vision models,
leading to substantial improvements in planning in a selection of
representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our
visual planning paradigm outperforms all other planning variants that conduct
reasoning in the text-only space. Our results establish Visual Planning as a
viable and promising alternative to language-based reasoning, opening new
avenues for tasks that benefit from intuitive, image-based inference.