ChatPaper.aiChatPaper

DynaMem: Memoria Spazio-Semantica Dinamica Online per la Manipolazione Mobile in Mondo Aperto

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

November 7, 2024
Autori: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Abstract

Sono stati compiuti progressi significativi nella manipolazione mobile a vocabolario aperto, il cui obiettivo è consentire a un robot di eseguire compiti in qualsiasi ambiente sulla base di una descrizione in linguaggio naturale. Tuttavia, la maggior parte dei sistemi attuali presuppone un ambiente statico, il che limita l'applicabilità del sistema in scenari reali, dove gli ambienti cambiano frequentemente a causa dell'intervento umano o delle azioni del robot stesso. In questo lavoro, presentiamo DynaMem, un nuovo approccio alla manipolazione mobile in mondo aperto che utilizza una memoria spaziosemantica dinamica per rappresentare l'ambiente di un robot. DynaMem costruisce una struttura dati 3D per mantenere una memoria dinamica delle nuvole di punti e risponde a query di localizzazione di oggetti a vocabolario aperto utilizzando modelli linguistici multimodali (LLM) o funzionalità a vocabolario aperto generate da modelli visione-linguaggio all'avanguardia. Grazie a DynaMem, i nostri robot possono esplorare ambienti nuovi, cercare oggetti non presenti in memoria e aggiornare continuamente la memoria man mano che gli oggetti si spostano, appaiono o scompaiono nella scena. Abbiamo condotto esperimenti approfonditi sui robot Stretch SE3 in tre scene reali e nove offline, raggiungendo una percentuale media di successo nel prelievo e rilascio del 70% su oggetti non stazionari, che rappresenta un miglioramento di oltre il doppio rispetto ai sistemi statici all'avanguardia. Il nostro codice, insieme ai video degli esperimenti e delle implementazioni, è open source e disponibile sul sito web del progetto: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system's applicability in real-world scenarios where environments frequently change due to human intervention or the robot's own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot's environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/
PDF182December 4, 2025