DynaMem: Online Dynamisch Spatio-Semantisch Geheugen voor Mobiele Manipulatie in een Open Wereld
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation
November 7, 2024
Auteurs: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI
Samenvatting
Er is aanzienlijke vooruitgang geboekt op het gebied van open-vocabulary mobiele manipulatie, waarbij het doel is dat een robot taken uitvoert in elke omgeving op basis van een beschrijving in natuurlijke taal. De meeste huidige systemen gaan echter uit van een statische omgeving, wat de toepasbaarheid van het systeem beperkt in realistische scenario's waar omgevingen frequent veranderen door menselijk ingrijpen of de acties van de robot zelf. In dit werk presenteren we DynaMem, een nieuwe aanpak voor mobiele manipulatie in een open wereld die een dynamisch ruimtelijk-semantisch geheugen gebruikt om de omgeving van een robot voor te stellen. DynaMem construeert een 3D-datastructuur om een dynamisch geheugen van puntenwolken bij te houden, en beantwoordt open-vocabulary localisatievragen voor objecten met behulp van multimodale LLM's of open-vocabulary kenmerken gegenereerd door state-of-the-art vision-language modellen. Aangedreven door DynaMem kunnen onze robots nieuwe omgevingen verkennen, zoeken naar objecten die niet in het geheugen staan, en het geheugen continu updaten wanneer objecten bewegen, verschijnen of verdwijnen in de scène. We voeren uitgebreide experimenten uit met de Stretch SE3-robots in drie echte en negen offline scènes, en behalen een gemiddeld slagingspercentage van 70% voor pick-and-drop taken met niet-stationaire objecten, wat een verbetering van meer dan een factor 2 is ten opzichte van state-of-the-art statische systemen. Onze code evenals onze experiment- en implementatievideo's zijn open source en zijn te vinden op onze projectwebsite: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation,
where the goal is for a robot to perform tasks in any environment given a
natural language description. However, most current systems assume a static
environment, which limits the system's applicability in real-world scenarios
where environments frequently change due to human intervention or the robot's
own actions. In this work, we present DynaMem, a new approach to open-world
mobile manipulation that uses a dynamic spatio-semantic memory to represent a
robot's environment. DynaMem constructs a 3D data structure to maintain a
dynamic memory of point clouds, and answers open-vocabulary object localization
queries using multimodal LLMs or open-vocabulary features generated by
state-of-the-art vision-language models. Powered by DynaMem, our robots can
explore novel environments, search for objects not found in memory, and
continuously update the memory as objects move, appear, or disappear in the
scene. We run extensive experiments on the Stretch SE3 robots in three real and
nine offline scenes, and achieve an average pick-and-drop success rate of 70%
on non-stationary objects, which is more than a 2x improvement over
state-of-the-art static systems. Our code as well as our experiment and
deployment videos are open sourced and can be found on our project website:
https://dynamem.github.io/