ChatPaper.aiChatPaper

경험은 최고의 스승: 자기 생성 메모리를 통해 로보틱스를 위한 시각-언어 모델의 기반 구축

Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory

July 22, 2025
저자: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI

초록

비전-언어 모델(VLMs)은 자율적인 계획을 가능하게 하기 위해 로봇 공학에서 널리 채택되고 있습니다. 그러나 인터넷 데이터로 원래 훈련된 VLMs을 다양한 실제 로봇에 적용하는 것은 여전히 과제로 남아 있습니다. 본 논문은 ExpTeach를 소개하며, 이 프레임워크는 실제 경험의 자체 생성된 메모리를 구축하여 VLMs을 물리적 로봇에 적용합니다. ExpTeach에서 VLM은 자율적으로 행동을 계획하고, 결과를 검증하며, 실패를 반영하고, 폐쇄 루프에서 로봇 행동을 조정합니다. 이 과정에서 자체 생성된 경험은 장기 기억으로 요약되어, 검색 증강 생성(RAG)을 통해 미래 작업을 안내하기 위해 학습된 지식을 검색할 수 있게 합니다. 또한, ExpTeach는 주문형 이미지 주석 모듈을 통해 VLMs의 공간 이해를 향상시킵니다. 실험에서, 우리는 반영이 네 가지 도전적인 로봇 작업에서 성공률을 36%에서 84%로 향상시키는 것을 보여주었고, 창의적인 도구 사용을 포함한 지능적인 물체 상호작용의 출현을 관찰했습니다. 12가지 실제 시나리오(여덟 가지는 보지 못한 것 포함)에 대한 광범위한 테스트에서, 장기 기억을 통한 적용이 단일 시도 성공률을 22%에서 80%로 높이는 것을 발견했으며, 이는 ExpTeach의 효과성과 일반화 가능성을 입증합니다.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.
PDF212July 23, 2025