ChatPaper.aiChatPaper

DynaMem: Онлайн-динамическая пространственно-семантическая память для мобильного манипулирования в открытом мире

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

November 7, 2024
Авторы: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Аннотация

Значительный прогресс достигнут в области мобильного манипулирования с открытым словарем, где цель заключается в выполнении роботом задач в любой среде по естественно-языковому описанию. Однако большинство современных систем предполагают статичную среду, что ограничивает применимость системы в реальных сценариях, где среда часто меняется из-за вмешательства человека или собственных действий робота. В данной работе мы представляем DynaMem — новый подход к мобильному манипулированию в открытом мире, который использует динамическую пространственно-семантическую память для представления среды робота. DynaMem строит 3D-структуру данных для поддержания динамической памяти облаков точек и отвечает на запросы локализации объектов с открытым словарем с использованием мультимодальных БОМ или признаков с открытым словарем, генерируемых современными визуально-языковыми моделями. Благодаря DynaMem наши роботы могут исследовать новые среды, искать объекты, отсутствующие в памяти, и непрерывно обновлять память по мере перемещения, появления или исчезновения объектов в сцене. Мы провели обширные эксперименты на роботах Stretch SE3 в трех реальных и девяти офлайн-сценах и достигли среднего показателя успешности операций «взять-положить» на уровне 70% для нестационарных объектов, что более чем в 2 раза превышает показатели современных статических систем. Наш код, а также видео экспериментов и развертывания являются открытыми и доступны на сайте проекта: https://dynamem.github.io/
English
Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system's applicability in real-world scenarios where environments frequently change due to human intervention or the robot's own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot's environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/
PDF182December 4, 2025