Visuele Planning: Laten We Alleen met Beelden Denken
Visual Planning: Let's Think Only with Images
May 16, 2025
Auteurs: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI
Samenvatting
Recente vooruitgang in Large Language Models (LLM's) en hun multimodale uitbreidingen (MLLM's) heeft de machine-redenering aanzienlijk verbeterd voor diverse taken. Deze modellen vertrouwen echter voornamelijk op pure tekst als medium voor zowel het uitdrukken als structureren van redeneringen, zelfs wanneer visuele informatie aanwezig is. In dit werk beargumenteren we dat taal niet altijd de meest natuurlijke of effectieve modaliteit is voor redeneringen, met name bij taken die ruimtelijke en geometrische informatie betreffen. Gemotiveerd door dit inzicht stellen we een nieuw paradigma voor, Visuele Planning, dat planning mogelijk maakt via puur visuele representaties, onafhankelijk van tekst. In dit paradigma wordt planning uitgevoerd via reeksen afbeeldingen die stap-voor-stap redeneringen in het visuele domein coderen, vergelijkbaar met hoe mensen toekomstige acties schetsen of visualiseren. We introduceren een nieuw reinforcement learning-framework, Visuele Planning via Reinforcement Learning (VPRL), ondersteund door GRPO voor het na-trainen van grote vision-modellen, wat leidt tot aanzienlijke verbeteringen in planning in een selectie van representatieve visuele navigatietaken: FrozenLake, Maze en MiniBehavior. Ons visuele planning-paradigma presteert beter dan alle andere planningvarianten die redeneringen in de tekstuele ruimte uitvoeren. Onze resultaten vestigen Visuele Planning als een levensvatbaar en veelbelovend alternatief voor taalgebaseerde redeneringen, wat nieuwe mogelijkheden opent voor taken die baat hebben bij intuïtieve, beeldgebaseerde inferentie.
English
Recent advancements in Large Language Models (LLMs) and their multimodal
extensions (MLLMs) have substantially enhanced machine reasoning across diverse
tasks. However, these models predominantly rely on pure text as the medium for
both expressing and structuring reasoning, even when visual information is
present. In this work, we argue that language may not always be the most
natural or effective modality for reasoning, particularly in tasks involving
spatial and geometrical information. Motivated by this, we propose a new
paradigm, Visual Planning, which enables planning through purely visual
representations, independent of text. In this paradigm, planning is executed
via sequences of images that encode step-by-step inference in the visual
domain, akin to how humans sketch or visualize future actions. We introduce a
novel reinforcement learning framework, Visual Planning via Reinforcement
Learning (VPRL), empowered by GRPO for post-training large vision models,
leading to substantial improvements in planning in a selection of
representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our
visual planning paradigm outperforms all other planning variants that conduct
reasoning in the text-only space. Our results establish Visual Planning as a
viable and promising alternative to language-based reasoning, opening new
avenues for tasks that benefit from intuitive, image-based inference.Summary
AI-Generated Summary