Planificación Reflexiva: Modelos Visión-Lenguaje para la Manipulación Robótica de Largo Horizonte en Múltiples Etapas
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
February 23, 2025
Autores: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
cs.AI
Resumen
Resolver problemas complejos de manipulación robótica de largo horizonte requiere capacidades sofisticadas de planificación de alto nivel, la habilidad de razonar sobre el mundo físico y seleccionar de manera reactiva las habilidades motoras adecuadas. Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) preentrenados con datos de Internet podrían, en principio, ofrecer un marco para abordar tales problemas. Sin embargo, en su forma actual, los VLMs carecen tanto de la comprensión matizada de la física intrincada necesaria para la manipulación robótica como de la capacidad de razonar a lo largo de horizontes prolongados para abordar problemas de acumulación de errores. En este artículo, presentamos un marco novedoso de computación en tiempo de prueba que mejora las capacidades de razonamiento físico de los VLMs para tareas de manipulación de múltiples etapas. En esencia, nuestro enfoque mejora iterativamente un VLM preentrenado con un mecanismo de "reflexión": utiliza un modelo generativo para imaginar estados futuros del mundo, aprovecha estas predicciones para guiar la selección de acciones y reflexiona críticamente sobre posibles suboptimalidades para refinar su razonamiento. Los resultados experimentales demuestran que nuestro método supera significativamente a varios VLMs comerciales de vanguardia, así como a otros enfoques de post-entrenamiento como la Búsqueda de Árbol de Monte Carlo (MCTS). Los videos están disponibles en https://reflect-vlm.github.io.
English
Solving complex long-horizon robotic manipulation problems requires
sophisticated high-level planning capabilities, the ability to reason about the
physical world, and reactively choose appropriate motor skills. Vision-language
models (VLMs) pretrained on Internet data could in principle offer a framework
for tackling such problems. However, in their current form, VLMs lack both the
nuanced understanding of intricate physics required for robotic manipulation
and the ability to reason over long horizons to address error compounding
issues. In this paper, we introduce a novel test-time computation framework
that enhances VLMs' physical reasoning capabilities for multi-stage
manipulation tasks. At its core, our approach iteratively improves a pretrained
VLM with a "reflection" mechanism - it uses a generative model to imagine
future world states, leverages these predictions to guide action selection, and
critically reflects on potential suboptimalities to refine its reasoning.
Experimental results demonstrate that our method significantly outperforms
several state-of-the-art commercial VLMs as well as other post-training
approaches such as Monte Carlo Tree Search (MCTS). Videos are available at
https://reflect-vlm.github.io.Summary
AI-Generated Summary