Planification visuelle : Pensons uniquement avec des images
Visual Planning: Let's Think Only with Images
May 16, 2025
Auteurs: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI
Résumé
Les récents progrès des modèles de langage à grande échelle (LLMs) et de leurs extensions multimodales (MLLMs) ont considérablement amélioré le raisonnement machine à travers diverses tâches. Cependant, ces modèles reposent principalement sur le texte pur comme moyen d'expression et de structuration du raisonnement, même en présence d'informations visuelles. Dans ce travail, nous soutenons que le langage n'est pas toujours la modalité la plus naturelle ou efficace pour le raisonnement, en particulier dans les tâches impliquant des informations spatiales et géométriques. Motivés par cela, nous proposons un nouveau paradigme, la Planification Visuelle, qui permet de planifier à travers des représentations purement visuelles, indépendamment du texte. Dans ce paradigme, la planification est exécutée via des séquences d'images qui encodent l'inférence étape par étape dans le domaine visuel, de manière similaire à la façon dont les humains esquissent ou visualisent des actions futures. Nous introduisons un nouveau cadre d'apprentissage par renforcement, la Planification Visuelle par Apprentissage par Renforcement (VPRL), renforcé par GRPO pour l'après-entraînement de grands modèles de vision, conduisant à des améliorations substantielles dans la planification pour une sélection de tâches de navigation visuelle représentatives, telles que FrozenLake, Maze et MiniBehavior. Notre paradigme de planification visuelle surpasse toutes les autres variantes de planification qui effectuent le raisonnement dans l'espace textuel uniquement. Nos résultats établissent la Planification Visuelle comme une alternative viable et prometteuse au raisonnement basé sur le langage, ouvrant de nouvelles voies pour les tâches qui bénéficient d'une inférence intuitive basée sur les images.
English
Recent advancements in Large Language Models (LLMs) and their multimodal
extensions (MLLMs) have substantially enhanced machine reasoning across diverse
tasks. However, these models predominantly rely on pure text as the medium for
both expressing and structuring reasoning, even when visual information is
present. In this work, we argue that language may not always be the most
natural or effective modality for reasoning, particularly in tasks involving
spatial and geometrical information. Motivated by this, we propose a new
paradigm, Visual Planning, which enables planning through purely visual
representations, independent of text. In this paradigm, planning is executed
via sequences of images that encode step-by-step inference in the visual
domain, akin to how humans sketch or visualize future actions. We introduce a
novel reinforcement learning framework, Visual Planning via Reinforcement
Learning (VPRL), empowered by GRPO for post-training large vision models,
leading to substantial improvements in planning in a selection of
representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our
visual planning paradigm outperforms all other planning variants that conduct
reasoning in the text-only space. Our results establish Visual Planning as a
viable and promising alternative to language-based reasoning, opening new
avenues for tasks that benefit from intuitive, image-based inference.Summary
AI-Generated Summary