ChatPaper.aiChatPaper

DynaMem: Online Dynamisch Spatio-Semantisch Geheugen voor Mobiele Manipulatie in een Open Wereld

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

November 7, 2024
Auteurs: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Samenvatting

Er is aanzienlijke vooruitgang geboekt op het gebied van open-vocabulary mobiele manipulatie, waarbij het doel is dat een robot taken uitvoert in elke omgeving op basis van een beschrijving in natuurlijke taal. De meeste huidige systemen gaan echter uit van een statische omgeving, wat de toepasbaarheid van het systeem beperkt in realistische scenario's waar omgevingen frequent veranderen door menselijk ingrijpen of de acties van de robot zelf. In dit werk presenteren we DynaMem, een nieuwe aanpak voor mobiele manipulatie in een open wereld die een dynamisch ruimtelijk-semantisch geheugen gebruikt om de omgeving van een robot voor te stellen. DynaMem construeert een 3D-datastructuur om een dynamisch geheugen van puntenwolken bij te houden, en beantwoordt open-vocabulary localisatievragen voor objecten met behulp van multimodale LLM's of open-vocabulary kenmerken gegenereerd door state-of-the-art vision-language modellen. Aangedreven door DynaMem kunnen onze robots nieuwe omgevingen verkennen, zoeken naar objecten die niet in het geheugen staan, en het geheugen continu updaten wanneer objecten bewegen, verschijnen of verdwijnen in de scène. We voeren uitgebreide experimenten uit met de Stretch SE3-robots in drie echte en negen offline scènes, en behalen een gemiddeld slagingspercentage van 70% voor pick-and-drop taken met niet-stationaire objecten, wat een verbetering van meer dan een factor 2 is ten opzichte van state-of-the-art statische systemen. Onze code evenals onze experiment- en implementatievideo's zijn open source en zijn te vinden op onze projectwebsite: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system's applicability in real-world scenarios where environments frequently change due to human intervention or the robot's own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot's environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/
PDF182December 4, 2025