Reflectieve Planning: Vision-Taalmodellen voor Meerstaps Manipulatie op Lange Termijn in Robotica
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
February 23, 2025
Auteurs: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
cs.AI
Samenvatting
Het oplossen van complexe robotmanipulatieproblemen met een lange tijdsduur vereist geavanceerde planningsvaardigheden op hoog niveau, het vermogen om te redeneren over de fysieke wereld en reactief geschikte motorische vaardigheden te kiezen. Vision-language-modellen (VLMs) die vooraf zijn getraind op internetgegevens zouden in principe een raamwerk kunnen bieden om dergelijke problemen aan te pakken. In hun huidige vorm missen VLMs echter zowel het genuanceerde begrip van ingewikkelde fysica dat nodig is voor robotmanipulatie als het vermogen om over lange tijdsduren te redeneren om problemen met foutaccumulatie aan te pakken. In dit artikel introduceren we een nieuw raamwerk voor berekeningen tijdens de testfase dat de fysieke redeneervaardigheden van VLMs voor meerfasige manipulatietaken verbetert. Kern van onze aanpak is het iteratief verbeteren van een vooraf getraind VLM met een "reflectie"-mechanisme – het gebruikt een generatief model om toekomstige wereldtoestanden te verbeelden, benut deze voorspellingen om actiekeuze te sturen, en reflecteert kritisch op mogelijke suboptimaliteiten om het redeneren te verfijnen. Experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan verschillende state-of-the-art commerciële VLMs, evenals andere post-trainingsbenaderingen zoals Monte Carlo Tree Search (MCTS). Video's zijn beschikbaar op https://reflect-vlm.github.io.
English
Solving complex long-horizon robotic manipulation problems requires
sophisticated high-level planning capabilities, the ability to reason about the
physical world, and reactively choose appropriate motor skills. Vision-language
models (VLMs) pretrained on Internet data could in principle offer a framework
for tackling such problems. However, in their current form, VLMs lack both the
nuanced understanding of intricate physics required for robotic manipulation
and the ability to reason over long horizons to address error compounding
issues. In this paper, we introduce a novel test-time computation framework
that enhances VLMs' physical reasoning capabilities for multi-stage
manipulation tasks. At its core, our approach iteratively improves a pretrained
VLM with a "reflection" mechanism - it uses a generative model to imagine
future world states, leverages these predictions to guide action selection, and
critically reflects on potential suboptimalities to refine its reasoning.
Experimental results demonstrate that our method significantly outperforms
several state-of-the-art commercial VLMs as well as other post-training
approaches such as Monte Carlo Tree Search (MCTS). Videos are available at
https://reflect-vlm.github.io.Summary
AI-Generated Summary