ChatPaper.aiChatPaper

DynaMem: 개방형 세계 모바일 조작을 위한 온라인 동적 시공간-의미론적 메모리

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

November 7, 2024
저자: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

초록

개방형 어휘 모바일 조작 분야에서는 로봇이 자연어 설명을 바탕으로 어떤 환경에서도 작업을 수행할 수 있도록 하는 것을 목표로 상당한 진전이 이루어졌다. 그러나 현재 대부분의 시스템은 정적 환경을 가정하고 있어, 인간의 개입이나 로봇의 자체 행동으로 인해 환경이 자주 변화하는 실제 시나리오에서의 적용 가능성이 제한된다. 본 연구에서는 로봇의 환경을 표현하기 위해 동적 공간-의미적 메모리를 사용하는 개방형 세계 모바일 조작을 위한 새로운 접근법인 DynaMem을 제안한다. DynaMem은 동적 포인트 클라우드 메모리를 유지하기 위해 3D 데이터 구조를 구축하고, 최첨단 비전-언어 모델에서 생성된 다중모달 LLM 또는 개방형 어휘 특징을 사용하여 개방형 어휘 객체 위치 지정 쿼리에 응답한다. DynaMem을 통해 우리의 로봇은 새로운 환경을 탐색하고, 메모리에 없는 객체를 검색하며, 장면에서 객체가 이동하거나 나타나거나 사라질 때 메모리를 지속적으로 업데이트할 수 있다. 우리는 Stretch SE3 로봇을 사용하여 세 개의 실제 장면과 아홉 개의 오프라인 장면에서 광범위한 실험을 수행했으며, 비정적 객체에 대한 평균 픽앤드랍 성공률이 70%로, 최첨단 정적 시스템 대비 2배 이상의 성능 향상을 달성했다. 우리의 코드와 실험 및 배포 비디오는 오픈소스로 제공되며 프로젝트 웹사이트(https://dynamem.github.io/)에서 확인할 수 있다.
English
Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system's applicability in real-world scenarios where environments frequently change due to human intervention or the robot's own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot's environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/
PDF182December 4, 2025