ChatPaper.aiChatPaper

Erfahrung ist der beste Lehrer: Verankerung von VLMs für die Robotik durch selbstgeneriertes Gedächtnis

Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory

July 22, 2025
papers.authors: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI

papers.abstract

Vision-Language-Modelle (VLMs) werden in der Robotik weit verbreitet eingesetzt, um autonome Planung zu ermöglichen. Die Anpassung von VLMs, die ursprünglich auf Internetdaten trainiert wurden, an verschiedene reale Roboter bleibt jedoch eine Herausforderung. Dieses Papier stellt ExpTeach vor, ein Framework, das VLMs an physische Roboter anbindet, indem es ein selbstgeneriertes Gedächtnis realer Erfahrungen aufbaut. In ExpTeach plant das VLM autonom Aktionen, überprüft Ergebnisse, reflektiert Fehler und passt das Verhalten des Roboters in einem geschlossenen Kreislauf an. Die während dieses Prozesses selbstgenerierten Erfahrungen werden dann in ein Langzeitgedächtnis zusammengefasst, das den Abruf erlernten Wissens ermöglicht, um zukünftige Aufgaben durch retrieval-augmented generation (RAG) zu steuern. Zusätzlich verbessert ExpTeach das räumliche Verständnis von VLMs durch ein Modul zur bedarfsgesteuerten Bildannotation. In Experimenten zeigen wir, dass Reflexion die Erfolgsquote von 36 % auf 84 % bei vier anspruchsvollen Robotikaufgaben steigert und die Entstehung intelligenter Objektinteraktionen, einschließlich kreativer Werkzeugnutzung, beobachtet wird. In umfangreichen Tests an 12 realen Szenarien (darunter acht unbekannte) stellen wir fest, dass die Anbindung an das Langzeitgedächtnis die Erfolgsquote bei Einzelversuchen von 22 % auf 80 % erhöht, was die Wirksamkeit und Generalisierbarkeit von ExpTeach demonstriert.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.
PDF212July 23, 2025