Pianificazione Riflessiva: Modelli Visione-Linguaggio per la Manipolazione Robotica a Lungo Termine a Multi-Stadio
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
February 23, 2025
Autori: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
cs.AI
Abstract
Risolvere complessi problemi di manipolazione robotica a lungo termine richiede sofisticate capacità di pianificazione di alto livello, la capacità di ragionare sul mondo fisico e di scegliere reattivamente le abilità motorie appropriate. I modelli visione-linguaggio (VLMs) pre-addestrati su dati di Internet potrebbero in linea di principio offrire un framework per affrontare tali problemi. Tuttavia, nella loro forma attuale, i VLMs mancano sia della comprensione sfumata della fisica intricata necessaria per la manipolazione robotica, sia della capacità di ragionare su orizzonti temporali lunghi per affrontare problemi di accumulo di errori. In questo articolo, introduciamo un innovativo framework di calcolo al momento del test che potenzia le capacità di ragionamento fisico dei VLMs per compiti di manipolazione multi-stadio. Al centro del nostro approccio c'è un meccanismo di "riflessione" che migliora iterativamente un VLM pre-addestrato: utilizza un modello generativo per immaginare stati futuri del mondo, sfrutta queste previsioni per guidare la selezione delle azioni e riflette criticamente su potenziali sub-ottimalità per affinare il proprio ragionamento. I risultati sperimentali dimostrano che il nostro metodo supera significativamente diversi VLMs commerciali all'avanguardia, nonché altri approcci post-addestramento come il Monte Carlo Tree Search (MCTS). I video sono disponibili su https://reflect-vlm.github.io.
English
Solving complex long-horizon robotic manipulation problems requires
sophisticated high-level planning capabilities, the ability to reason about the
physical world, and reactively choose appropriate motor skills. Vision-language
models (VLMs) pretrained on Internet data could in principle offer a framework
for tackling such problems. However, in their current form, VLMs lack both the
nuanced understanding of intricate physics required for robotic manipulation
and the ability to reason over long horizons to address error compounding
issues. In this paper, we introduce a novel test-time computation framework
that enhances VLMs' physical reasoning capabilities for multi-stage
manipulation tasks. At its core, our approach iteratively improves a pretrained
VLM with a "reflection" mechanism - it uses a generative model to imagine
future world states, leverages these predictions to guide action selection, and
critically reflects on potential suboptimalities to refine its reasoning.
Experimental results demonstrate that our method significantly outperforms
several state-of-the-art commercial VLMs as well as other post-training
approaches such as Monte Carlo Tree Search (MCTS). Videos are available at
https://reflect-vlm.github.io.Summary
AI-Generated Summary