DynaMem: Online dynamisches spatio-semantisches Gedächtnis für die mobile Manipulation in offenen Welten
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation
November 7, 2024
papers.authors: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI
papers.abstract
Erhebliche Fortschritte wurden im Bereich der offenen Vokabular-Mobilmanipulation erzielt, bei der das Ziel darin besteht, dass ein Roboter Aufgaben in jeder Umgebung auf der Grundlage einer natürlichen Sprachbeschreibung ausführt. Die meisten derzeitigen Systeme gehen jedoch von einer statischen Umgebung aus, was die Anwendbarkeit des Systems in realen Szenarien einschränkt, in denen sich die Umgebung häufig aufgrund menschlicher Eingriffe oder der eigenen Aktionen des Roboters verändert. In dieser Arbeit stellen wir DynaMem vor, einen neuen Ansatz zur Mobilmanipulation in offenen Welten, der ein dynamisches räumlich-semantisches Gedächtnis zur Darstellung der Umgebung eines Roboters verwendet. DynaMem konstruiert eine 3D-Datenstruktur, um ein dynamisches Gedächtnis von Punktwolken zu pflegen, und beantwortet Anfragen zur Lokalisierung von Objekten mit offenem Vokabular mithilfe multimodaler LLMs oder offener Vokabular-Merkmale, die von modernsten Vision-Sprache-Modellen generiert werden. Dank DynaMem können unsere Roboter neue Umgebungen erkunden, nach Objekten suchen, die nicht im Gedächtnis gespeichert sind, und das Gedächtnis kontinuierlich aktualisieren, wenn sich Objekte in der Szene bewegen, erscheinen oder verschwinden. Wir führen umfangreiche Experimente mit den Stretch SE3-Robotern in drei realen und neun Offline-Szenen durch und erreichen eine durchschnittliche Erfolgsrate von 70 % beim Aufnehmen und Ablegen von nicht stationären Objekten, was mehr als eine Verdoppelung im Vergleich zu modernsten statischen Systemen darstellt. Unser Code sowie unsere Experiment- und Einsatzvideos sind Open Source und können auf unserer Projektwebsite eingesehen werden: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation,
where the goal is for a robot to perform tasks in any environment given a
natural language description. However, most current systems assume a static
environment, which limits the system's applicability in real-world scenarios
where environments frequently change due to human intervention or the robot's
own actions. In this work, we present DynaMem, a new approach to open-world
mobile manipulation that uses a dynamic spatio-semantic memory to represent a
robot's environment. DynaMem constructs a 3D data structure to maintain a
dynamic memory of point clouds, and answers open-vocabulary object localization
queries using multimodal LLMs or open-vocabulary features generated by
state-of-the-art vision-language models. Powered by DynaMem, our robots can
explore novel environments, search for objects not found in memory, and
continuously update the memory as objects move, appear, or disappear in the
scene. We run extensive experiments on the Stretch SE3 robots in three real and
nine offline scenes, and achieve an average pick-and-drop success rate of 70%
on non-stationary objects, which is more than a 2x improvement over
state-of-the-art static systems. Our code as well as our experiment and
deployment videos are open sourced and can be found on our project website:
https://dynamem.github.io/