ChatPaper.aiChatPaper

Visuele Planning: Laten We Alleen met Beelden Denken

Visual Planning: Let's Think Only with Images

May 16, 2025
Auteurs: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI

Samenvatting

Recente vooruitgang in Large Language Models (LLM's) en hun multimodale uitbreidingen (MLLM's) heeft de machine-redenering aanzienlijk verbeterd voor diverse taken. Deze modellen vertrouwen echter voornamelijk op pure tekst als medium voor zowel het uitdrukken als structureren van redeneringen, zelfs wanneer visuele informatie aanwezig is. In dit werk beargumenteren we dat taal niet altijd de meest natuurlijke of effectieve modaliteit is voor redeneringen, met name bij taken die ruimtelijke en geometrische informatie betreffen. Gemotiveerd door dit inzicht stellen we een nieuw paradigma voor, Visuele Planning, dat planning mogelijk maakt via puur visuele representaties, onafhankelijk van tekst. In dit paradigma wordt planning uitgevoerd via reeksen afbeeldingen die stap-voor-stap redeneringen in het visuele domein coderen, vergelijkbaar met hoe mensen toekomstige acties schetsen of visualiseren. We introduceren een nieuw reinforcement learning-framework, Visuele Planning via Reinforcement Learning (VPRL), ondersteund door GRPO voor het na-trainen van grote vision-modellen, wat leidt tot aanzienlijke verbeteringen in planning in een selectie van representatieve visuele navigatietaken: FrozenLake, Maze en MiniBehavior. Ons visuele planning-paradigma presteert beter dan alle andere planningvarianten die redeneringen in de tekstuele ruimte uitvoeren. Onze resultaten vestigen Visuele Planning als een levensvatbaar en veelbelovend alternatief voor taalgebaseerde redeneringen, wat nieuwe mogelijkheden opent voor taken die baat hebben bij intuïtieve, beeldgebaseerde inferentie.
English
Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.

Summary

AI-Generated Summary

PDF444May 19, 2025