Pianificazione Visiva: Pensiamo Solo con le Immagini

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) e nelle loro estensioni multimodali (MLLM) hanno notevolmente migliorato il ragionamento automatico in una vasta gamma di compiti. Tuttavia, questi modelli si basano principalmente sul puro testo come mezzo per esprimere e strutturare il ragionamento, anche quando sono presenti informazioni visive. In questo lavoro, sosteniamo che il linguaggio potrebbe non essere sempre la modalità più naturale o efficace per il ragionamento, specialmente in compiti che coinvolgono informazioni spaziali e geometriche. Motivati da ciò, proponiamo un nuovo paradigma, il Pianificazione Visiva, che consente la pianificazione attraverso rappresentazioni puramente visive, indipendenti dal testo. In questo paradigma, la pianificazione viene eseguita tramite sequenze di immagini che codificano inferenze passo-passo nel dominio visivo, analogamente a come gli esseri umani schizzano o visualizzano azioni future. Introduciamo un nuovo framework di apprendimento per rinforzo, Pianificazione Visiva tramite Apprendimento per Rinforzo (VPRL), potenziato da GRPO per il post-addestramento di grandi modelli visivi, portando a miglioramenti significativi nella pianificazione in una selezione di compiti rappresentativi di navigazione visiva, come FrozenLake, Maze e MiniBehavior. Il nostro paradigma di pianificazione visiva supera tutte le altre varianti di pianificazione che conducono il ragionamento esclusivamente nello spazio testuale. I nostri risultati stabiliscono la Pianificazione Visiva come un'alternativa valida e promettente al ragionamento basato sul linguaggio, aprendo nuove strade per compiti che beneficiano di inferenze intuitive basate sulle immagini.

English

Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.

Pianificazione Visiva: Pensiamo Solo con le Immagini

Visual Planning: Let's Think Only with Images

Abstract

Support