ChatPaper.aiChatPaper

DynaMem: Memória Espaço-Semântica Dinâmica Online para Manipulação Móvel em Mundo Aberto

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

November 7, 2024
Autores: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Resumo

Foram feitos progressos significativos na manipulação móvel de vocabulário aberto, onde o objetivo é que um robô execute tarefas em qualquer ambiente com base numa descrição em linguagem natural. No entanto, a maioria dos sistemas atuais assume um ambiente estático, o que limita a aplicabilidade do sistema em cenários do mundo real, onde os ambientes mudam frequentemente devido à intervenção humana ou às próprias ações do robô. Neste trabalho, apresentamos a DynaMem, uma nova abordagem para a manipulação móvel em mundo aberto que utiliza uma memória espácio-semântica dinâmica para representar o ambiente de um robô. A DynaMem constrói uma estrutura de dados 3D para manter uma memória dinâmica de nuvens de pontos, e responde a consultas de localização de objetos de vocabulário aberto usando LLMs multimodais ou características de vocabulário aberto geradas por modelos estado-da-arte de visão e linguagem. Potenciados pela DynaMem, os nossos robôs podem explorar ambientes novos, procurar objetos não encontrados na memória, e atualizar continuamente a memória à medida que os objetos se movem, aparecem ou desaparecem na cena. Realizamos experiências extensivas nos robôs Stretch SE3 em três cenas reais e nove offline, e alcançámos uma taxa média de sucesso de apanhar e largar de 70% em objetos não estacionários, o que representa uma melhoria superior a 2x em relação aos sistemas estáticos estado-da-arte. O nosso código, bem como os nossos vídeos de experiências e implementação, são de código aberto e podem ser encontrados no site do nosso projeto: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system's applicability in real-world scenarios where environments frequently change due to human intervention or the robot's own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot's environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/
PDF182December 4, 2025