ChatPaper.aiChatPaper

Planification réfléchie : Modèles vision-langage pour la manipulation robotique à long terme en plusieurs étapes

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

February 23, 2025
Auteurs: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
cs.AI

Résumé

La résolution de problèmes complexes de manipulation robotique à long terme nécessite des capacités de planification de haut niveau sophistiquées, la capacité à raisonner sur le monde physique et à choisir de manière réactive les compétences motrices appropriées. Les modèles vision-langage (VLMs) pré-entraînés sur des données provenant d'Internet pourraient en principe offrir un cadre pour aborder de tels problèmes. Cependant, dans leur forme actuelle, les VLMs manquent à la fois d'une compréhension nuancée de la physique complexe requise pour la manipulation robotique et de la capacité à raisonner sur de longues périodes pour résoudre les problèmes d'accumulation d'erreurs. Dans cet article, nous introduisons un nouveau cadre de calcul au moment du test qui améliore les capacités de raisonnement physique des VLMs pour les tâches de manipulation en plusieurs étapes. Au cœur de notre approche, nous améliorons itérativement un VLM pré-entraîné avec un mécanisme de "réflexion" - il utilise un modèle génératif pour imaginer les états futurs du monde, exploite ces prédictions pour guider la sélection des actions, et réfléchit de manière critique aux éventuelles sous-optimalités pour affiner son raisonnement. Les résultats expérimentaux démontrent que notre méthode surpasse significativement plusieurs VLMs commerciaux de pointe ainsi que d'autres approches post-entraînement telles que la recherche arborescente Monte Carlo (MCTS). Les vidéos sont disponibles à l'adresse https://reflect-vlm.github.io.
English
Solving complex long-horizon robotic manipulation problems requires sophisticated high-level planning capabilities, the ability to reason about the physical world, and reactively choose appropriate motor skills. Vision-language models (VLMs) pretrained on Internet data could in principle offer a framework for tackling such problems. However, in their current form, VLMs lack both the nuanced understanding of intricate physics required for robotic manipulation and the ability to reason over long horizons to address error compounding issues. In this paper, we introduce a novel test-time computation framework that enhances VLMs' physical reasoning capabilities for multi-stage manipulation tasks. At its core, our approach iteratively improves a pretrained VLM with a "reflection" mechanism - it uses a generative model to imagine future world states, leverages these predictions to guide action selection, and critically reflects on potential suboptimalities to refine its reasoning. Experimental results demonstrate that our method significantly outperforms several state-of-the-art commercial VLMs as well as other post-training approaches such as Monte Carlo Tree Search (MCTS). Videos are available at https://reflect-vlm.github.io.

Summary

AI-Generated Summary

PDF132February 25, 2025