ChatPaper.aiChatPaper

Planejamento Reflexivo: Modelos Visão-Linguagem para Manipulação Robótica de Longo Horizonte em Múltiplos Estágios

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

February 23, 2025
Autores: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
cs.AI

Resumo

Resolver problemas complexos de manipulação robótica de longo horizonte requer capacidades sofisticadas de planejamento de alto nível, a habilidade de raciocinar sobre o mundo físico e escolher reativamente habilidades motoras apropriadas. Modelos de visão e linguagem (VLMs) pré-treinados em dados da Internet poderiam, em princípio, oferecer uma estrutura para abordar tais problemas. No entanto, em sua forma atual, os VLMs carecem tanto da compreensão detalhada da física intrincada necessária para a manipulação robótica quanto da capacidade de raciocinar sobre longos horizontes para lidar com problemas de acumulação de erros. Neste artigo, introduzimos uma nova estrutura de computação em tempo de teste que aprimora as capacidades de raciocínio físico dos VLMs para tarefas de manipulação em múltiplos estágios. No cerne de nossa abordagem, iterativamente melhoramos um VLM pré-treinado com um mecanismo de "reflexão" - ele usa um modelo generativo para imaginar estados futuros do mundo, aproveita essas previsões para orientar a seleção de ações e reflete criticamente sobre possíveis subotimalidades para refinar seu raciocínio. Resultados experimentais demonstram que nosso método supera significativamente vários VLMs comerciais de ponta, bem como outras abordagens de pós-treinamento, como a Busca em Árvore de Monte Carlo (MCTS). Vídeos estão disponíveis em https://reflect-vlm.github.io.
English
Solving complex long-horizon robotic manipulation problems requires sophisticated high-level planning capabilities, the ability to reason about the physical world, and reactively choose appropriate motor skills. Vision-language models (VLMs) pretrained on Internet data could in principle offer a framework for tackling such problems. However, in their current form, VLMs lack both the nuanced understanding of intricate physics required for robotic manipulation and the ability to reason over long horizons to address error compounding issues. In this paper, we introduce a novel test-time computation framework that enhances VLMs' physical reasoning capabilities for multi-stage manipulation tasks. At its core, our approach iteratively improves a pretrained VLM with a "reflection" mechanism - it uses a generative model to imagine future world states, leverages these predictions to guide action selection, and critically reflects on potential suboptimalities to refine its reasoning. Experimental results demonstrate that our method significantly outperforms several state-of-the-art commercial VLMs as well as other post-training approaches such as Monte Carlo Tree Search (MCTS). Videos are available at https://reflect-vlm.github.io.

Summary

AI-Generated Summary

PDF132February 25, 2025