DynaMem: Memória Espaço-Semântica Dinâmica Online para Manipulação Móvel em Mundo Aberto
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation
November 7, 2024
Autores: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI
Resumo
Foram feitos progressos significativos na manipulação móvel de vocabulário aberto,
onde o objetivo é que um robô execute tarefas em qualquer ambiente com base numa
descrição em linguagem natural. No entanto, a maioria dos sistemas atuais assume
um ambiente estático, o que limita a aplicabilidade do sistema em cenários do
mundo real, onde os ambientes mudam frequentemente devido à intervenção humana
ou às próprias ações do robô. Neste trabalho, apresentamos a DynaMem, uma nova
abordagem para a manipulação móvel em mundo aberto que utiliza uma memória
espácio-semântica dinâmica para representar o ambiente de um robô. A DynaMem
constrói uma estrutura de dados 3D para manter uma memória dinâmica de nuvens
de pontos, e responde a consultas de localização de objetos de vocabulário aberto
usando LLMs multimodais ou características de vocabulário aberto geradas por
modelos estado-da-arte de visão e linguagem. Potenciados pela DynaMem, os nossos
robôs podem explorar ambientes novos, procurar objetos não encontrados na
memória, e atualizar continuamente a memória à medida que os objetos se movem,
aparecem ou desaparecem na cena. Realizamos experiências extensivas nos robôs
Stretch SE3 em três cenas reais e nove offline, e alcançámos uma taxa média de
sucesso de apanhar e largar de 70% em objetos não estacionários, o que
representa uma melhoria superior a 2x em relação aos sistemas estáticos
estado-da-arte. O nosso código, bem como os nossos vídeos de experiências e
implementação, são de código aberto e podem ser encontrados no site do nosso
projeto: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation,
where the goal is for a robot to perform tasks in any environment given a
natural language description. However, most current systems assume a static
environment, which limits the system's applicability in real-world scenarios
where environments frequently change due to human intervention or the robot's
own actions. In this work, we present DynaMem, a new approach to open-world
mobile manipulation that uses a dynamic spatio-semantic memory to represent a
robot's environment. DynaMem constructs a 3D data structure to maintain a
dynamic memory of point clouds, and answers open-vocabulary object localization
queries using multimodal LLMs or open-vocabulary features generated by
state-of-the-art vision-language models. Powered by DynaMem, our robots can
explore novel environments, search for objects not found in memory, and
continuously update the memory as objects move, appear, or disappear in the
scene. We run extensive experiments on the Stretch SE3 robots in three real and
nine offline scenes, and achieve an average pick-and-drop success rate of 70%
on non-stationary objects, which is more than a 2x improvement over
state-of-the-art static systems. Our code as well as our experiment and
deployment videos are open sourced and can be found on our project website:
https://dynamem.github.io/