ChatPaper.aiChatPaper

Visuelle Planung: Denken wir nur mit Bildern

Visual Planning: Let's Think Only with Images

May 16, 2025
Autoren: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und ihren multimodalen Erweiterungen (MLLMs) haben das maschinelle Denken über verschiedene Aufgaben hinweg erheblich verbessert. Diese Modelle stützen sich jedoch überwiegend auf reinen Text als Medium, um Denkprozesse auszudrücken und zu strukturieren, selbst wenn visuelle Informationen vorhanden sind. In dieser Arbeit argumentieren wir, dass Sprache nicht immer die natürlichste oder effektivste Modalität für das Denken ist, insbesondere bei Aufgaben, die räumliche und geometrische Informationen beinhalten. Motiviert durch diese Erkenntnis schlagen wir ein neues Paradigma vor, das sogenannte Visual Planning, das Planung durch rein visuelle Darstellungen ermöglicht, unabhängig von Text. In diesem Paradigma wird die Planung über Sequenzen von Bildern ausgeführt, die schrittweise Schlussfolgerungen im visuellen Bereich kodieren, ähnlich wie Menschen zukünftige Handlungen skizzieren oder visualisieren. Wir stellen ein neuartiges Reinforcement-Learning-Framework vor, Visual Planning via Reinforcement Learning (VPRL), das durch GRPO für das Nachtraining großer Vision-Modelle gestärkt wird und zu erheblichen Verbesserungen bei der Planung in einer Auswahl repräsentativer visueller Navigationsaufgaben führt, darunter FrozenLake, Maze und MiniBehavior. Unser Visual-Planning-Paradigma übertrifft alle anderen Planungsvarianten, die das Denken ausschließlich im Textraum durchführen. Unsere Ergebnisse etablieren Visual Planning als eine praktikable und vielversprechende Alternative zur sprachbasierten Denkweise und eröffnen neue Wege für Aufgaben, die von intuitiver, bildbasierter Schlussfolgerung profitieren.
English
Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.

Summary

AI-Generated Summary

PDF374May 19, 2025