Reflectieve Planning: Vision-Taalmodellen voor Meerstaps Manipulatie op Lange Termijn in Robotica

Samenvatting

Het oplossen van complexe robotmanipulatieproblemen met een lange tijdsduur vereist geavanceerde planningsvaardigheden op hoog niveau, het vermogen om te redeneren over de fysieke wereld en reactief geschikte motorische vaardigheden te kiezen. Vision-language-modellen (VLMs) die vooraf zijn getraind op internetgegevens zouden in principe een raamwerk kunnen bieden om dergelijke problemen aan te pakken. In hun huidige vorm missen VLMs echter zowel het genuanceerde begrip van ingewikkelde fysica dat nodig is voor robotmanipulatie als het vermogen om over lange tijdsduren te redeneren om problemen met foutaccumulatie aan te pakken. In dit artikel introduceren we een nieuw raamwerk voor berekeningen tijdens de testfase dat de fysieke redeneervaardigheden van VLMs voor meerfasige manipulatietaken verbetert. Kern van onze aanpak is het iteratief verbeteren van een vooraf getraind VLM met een "reflectie"-mechanisme – het gebruikt een generatief model om toekomstige wereldtoestanden te verbeelden, benut deze voorspellingen om actiekeuze te sturen, en reflecteert kritisch op mogelijke suboptimaliteiten om het redeneren te verfijnen. Experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan verschillende state-of-the-art commerciële VLMs, evenals andere post-trainingsbenaderingen zoals Monte Carlo Tree Search (MCTS). Video's zijn beschikbaar op https://reflect-vlm.github.io.

English

Solving complex long-horizon robotic manipulation problems requires sophisticated high-level planning capabilities, the ability to reason about the physical world, and reactively choose appropriate motor skills. Vision-language models (VLMs) pretrained on Internet data could in principle offer a framework for tackling such problems. However, in their current form, VLMs lack both the nuanced understanding of intricate physics required for robotic manipulation and the ability to reason over long horizons to address error compounding issues. In this paper, we introduce a novel test-time computation framework that enhances VLMs' physical reasoning capabilities for multi-stage manipulation tasks. At its core, our approach iteratively improves a pretrained VLM with a "reflection" mechanism - it uses a generative model to imagine future world states, leverages these predictions to guide action selection, and critically reflects on potential suboptimalities to refine its reasoning. Experimental results demonstrate that our method significantly outperforms several state-of-the-art commercial VLMs as well as other post-training approaches such as Monte Carlo Tree Search (MCTS). Videos are available at https://reflect-vlm.github.io.

Reflectieve Planning: Vision-Taalmodellen voor Meerstaps Manipulatie op Lange Termijn in Robotica

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Samenvatting

Support