ChatPaper.aiChatPaper

DynaMem: Memoria Espaciotemporal Dinámica en Línea para la Manipulación Móvil en Mundos Abiertos

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

November 7, 2024
Autores: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Resumen

Se ha logrado un progreso significativo en la manipulación móvil de vocabulario abierto, cuyo objetivo es que un robot realice tareas en cualquier entorno dada una descripción en lenguaje natural. Sin embargo, la mayoría de los sistemas actuales asumen un entorno estático, lo que limita la aplicabilidad del sistema en escenarios del mundo real, donde los entornos cambian con frecuencia debido a la intervención humana o a las acciones propias del robot. En este trabajo, presentamos DynaMem, un nuevo enfoque para la manipulación móvil en mundo abierto que utiliza una memoria espacioso-semántica dinámica para representar el entorno de un robot. DynaMem construye una estructura de datos 3D para mantener una memoria dinámica de nubes de puntos, y responde a consultas de localización de objetos de vocabulario abierto utilizando LLM multimodales o características de vocabulario abierto generadas por modelos visión-lenguaje de vanguardia. Impulsados por DynaMem, nuestros robots pueden explorar entornos novedosos, buscar objetos no encontrados en la memoria y actualizar continuamente la memoria a medida que los objetos se mueven, aparecen o desaparecen en la escena. Realizamos extensos experimentos en robots Stretch SE3 en tres escenarios reales y nueve fuera de línea, y logramos una tasa promedio de éxito de recoger y soltar del 70% en objetos no estacionarios, lo que representa una mejora de más del doble respecto a los sistemas estáticos de vanguardia. Nuestro código, así como nuestros videos de experimentos e implementación, son de código abierto y pueden encontrarse en el sitio web de nuestro proyecto: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system's applicability in real-world scenarios where environments frequently change due to human intervention or the robot's own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot's environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/
PDF182December 4, 2025