Planejamento Reflexivo: Modelos Visão-Linguagem para Manipulação Robótica de Longo Horizonte em Múltiplos Estágios
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
February 23, 2025
Autores: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
cs.AI
Resumo
Resolver problemas complexos de manipulação robótica de longo horizonte requer
capacidades sofisticadas de planejamento de alto nível, a habilidade de raciocinar sobre o
mundo físico e escolher reativamente habilidades motoras apropriadas. Modelos de
visão e linguagem (VLMs) pré-treinados em dados da Internet poderiam, em princípio,
oferecer uma estrutura para abordar tais problemas. No entanto, em sua forma atual,
os VLMs carecem tanto da compreensão detalhada da física intrincada necessária para
a manipulação robótica quanto da capacidade de raciocinar sobre longos horizontes
para lidar com problemas de acumulação de erros. Neste artigo, introduzimos uma
nova estrutura de computação em tempo de teste que aprimora as capacidades de
raciocínio físico dos VLMs para tarefas de manipulação em múltiplos estágios. No
cerne de nossa abordagem, iterativamente melhoramos um VLM pré-treinado com um
mecanismo de "reflexão" - ele usa um modelo generativo para imaginar estados futuros
do mundo, aproveita essas previsões para orientar a seleção de ações e reflete
criticamente sobre possíveis subotimalidades para refinar seu raciocínio. Resultados
experimentais demonstram que nosso método supera significativamente vários VLMs
comerciais de ponta, bem como outras abordagens de pós-treinamento, como a Busca
em Árvore de Monte Carlo (MCTS). Vídeos estão disponíveis em
https://reflect-vlm.github.io.
English
Solving complex long-horizon robotic manipulation problems requires
sophisticated high-level planning capabilities, the ability to reason about the
physical world, and reactively choose appropriate motor skills. Vision-language
models (VLMs) pretrained on Internet data could in principle offer a framework
for tackling such problems. However, in their current form, VLMs lack both the
nuanced understanding of intricate physics required for robotic manipulation
and the ability to reason over long horizons to address error compounding
issues. In this paper, we introduce a novel test-time computation framework
that enhances VLMs' physical reasoning capabilities for multi-stage
manipulation tasks. At its core, our approach iteratively improves a pretrained
VLM with a "reflection" mechanism - it uses a generative model to imagine
future world states, leverages these predictions to guide action selection, and
critically reflects on potential suboptimalities to refine its reasoning.
Experimental results demonstrate that our method significantly outperforms
several state-of-the-art commercial VLMs as well as other post-training
approaches such as Monte Carlo Tree Search (MCTS). Videos are available at
https://reflect-vlm.github.io.Summary
AI-Generated Summary