DynaMem : Mémoire Spatio-Sémantique Dynamique en Ligne pour la Manipulation Mobile dans des Mondes Ouverts
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation
November 7, 2024
papers.authors: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI
papers.abstract
Des progrès significatifs ont été réalisés dans le domaine de la manipulation mobile à vocabulaire ouvert, où l'objectif est qu'un robot exécute des tâches dans n'importe quel environnement à partir d'une description en langage naturel. Cependant, la plupart des systèmes actuels supposent un environnement statique, ce qui limite leur applicabilité dans des scénarios réels où les environnements changent fréquemment en raison de l'intervention humaine ou des actions du robot lui-même. Dans ce travail, nous présentons DynaMem, une nouvelle approche de manipulation mobile en monde ouvert qui utilise une mémoire spatio-sémantique dynamique pour représenter l'environnement d'un robot. DynaMem construit une structure de données 3D pour maintenir une mémoire dynamique de nuages de points, et répond aux requêtes de localisation d'objets à vocabulaire ouvert en utilisant des modèles de langage multimodaux (LLMs) ou des caractéristiques à vocabulaire ouvert générées par des modèles vision-langage de pointe. Grâce à DynaMem, nos robots peuvent explorer de nouveaux environnements, rechercher des objets non présents en mémoire, et mettre à jour continuellement la mémoire à mesure que les objets se déplacent, apparaissent ou disparaissent dans la scène. Nous avons mené des expériences approfondies sur les robots Stretch SE3 dans trois scènes réelles et neuf scènes hors ligne, et avons obtenu un taux de réussite moyen de 70 % pour la prise et le dépôt d'objets non stationnaires, ce qui représente une amélioration de plus de 2x par rapport aux systèmes statiques de pointe. Notre code ainsi que les vidéos de nos expériences et déploiements sont open source et peuvent être consultés sur notre site web de projet : https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation,
where the goal is for a robot to perform tasks in any environment given a
natural language description. However, most current systems assume a static
environment, which limits the system's applicability in real-world scenarios
where environments frequently change due to human intervention or the robot's
own actions. In this work, we present DynaMem, a new approach to open-world
mobile manipulation that uses a dynamic spatio-semantic memory to represent a
robot's environment. DynaMem constructs a 3D data structure to maintain a
dynamic memory of point clouds, and answers open-vocabulary object localization
queries using multimodal LLMs or open-vocabulary features generated by
state-of-the-art vision-language models. Powered by DynaMem, our robots can
explore novel environments, search for objects not found in memory, and
continuously update the memory as objects move, appear, or disappear in the
scene. We run extensive experiments on the Stretch SE3 robots in three real and
nine offline scenes, and achieve an average pick-and-drop success rate of 70%
on non-stationary objects, which is more than a 2x improvement over
state-of-the-art static systems. Our code as well as our experiment and
deployment videos are open sourced and can be found on our project website:
https://dynamem.github.io/