ChatPaper.aiChatPaper

Planification visuelle : Pensons uniquement avec des images

Visual Planning: Let's Think Only with Images

May 16, 2025
Auteurs: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI

Résumé

Les récents progrès des modèles de langage à grande échelle (LLMs) et de leurs extensions multimodales (MLLMs) ont considérablement amélioré le raisonnement machine à travers diverses tâches. Cependant, ces modèles reposent principalement sur le texte pur comme moyen d'expression et de structuration du raisonnement, même en présence d'informations visuelles. Dans ce travail, nous soutenons que le langage n'est pas toujours la modalité la plus naturelle ou efficace pour le raisonnement, en particulier dans les tâches impliquant des informations spatiales et géométriques. Motivés par cela, nous proposons un nouveau paradigme, la Planification Visuelle, qui permet de planifier à travers des représentations purement visuelles, indépendamment du texte. Dans ce paradigme, la planification est exécutée via des séquences d'images qui encodent l'inférence étape par étape dans le domaine visuel, de manière similaire à la façon dont les humains esquissent ou visualisent des actions futures. Nous introduisons un nouveau cadre d'apprentissage par renforcement, la Planification Visuelle par Apprentissage par Renforcement (VPRL), renforcé par GRPO pour l'après-entraînement de grands modèles de vision, conduisant à des améliorations substantielles dans la planification pour une sélection de tâches de navigation visuelle représentatives, telles que FrozenLake, Maze et MiniBehavior. Notre paradigme de planification visuelle surpasse toutes les autres variantes de planification qui effectuent le raisonnement dans l'espace textuel uniquement. Nos résultats établissent la Planification Visuelle comme une alternative viable et prometteuse au raisonnement basé sur le langage, ouvrant de nouvelles voies pour les tâches qui bénéficient d'une inférence intuitive basée sur les images.
English
Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.

Summary

AI-Generated Summary

PDF414May 19, 2025