Erfahrung ist der beste Lehrer: Verankerung von VLMs für die Robotik durch selbstgeneriertes Gedächtnis
Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory
July 22, 2025
papers.authors: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI
papers.abstract
Vision-Language-Modelle (VLMs) werden in der Robotik weit verbreitet eingesetzt, um autonome Planung zu ermöglichen. Die Anpassung von VLMs, die ursprünglich auf Internetdaten trainiert wurden, an verschiedene reale Roboter bleibt jedoch eine Herausforderung. Dieses Papier stellt ExpTeach vor, ein Framework, das VLMs an physische Roboter anbindet, indem es ein selbstgeneriertes Gedächtnis realer Erfahrungen aufbaut. In ExpTeach plant das VLM autonom Aktionen, überprüft Ergebnisse, reflektiert Fehler und passt das Verhalten des Roboters in einem geschlossenen Kreislauf an. Die während dieses Prozesses selbstgenerierten Erfahrungen werden dann in ein Langzeitgedächtnis zusammengefasst, das den Abruf erlernten Wissens ermöglicht, um zukünftige Aufgaben durch retrieval-augmented generation (RAG) zu steuern. Zusätzlich verbessert ExpTeach das räumliche Verständnis von VLMs durch ein Modul zur bedarfsgesteuerten Bildannotation. In Experimenten zeigen wir, dass Reflexion die Erfolgsquote von 36 % auf 84 % bei vier anspruchsvollen Robotikaufgaben steigert und die Entstehung intelligenter Objektinteraktionen, einschließlich kreativer Werkzeugnutzung, beobachtet wird. In umfangreichen Tests an 12 realen Szenarien (darunter acht unbekannte) stellen wir fest, dass die Anbindung an das Langzeitgedächtnis die Erfolgsquote bei Einzelversuchen von 22 % auf 80 % erhöht, was die Wirksamkeit und Generalisierbarkeit von ExpTeach demonstriert.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable
autonomous planning. However, grounding VLMs, originally trained on internet
data, to diverse real-world robots remains a challenge. This paper presents
ExpTeach, a framework that grounds VLMs to physical robots by building a
self-generated memory of real-world experiences. In ExpTeach, the VLM
autonomously plans actions, verifies outcomes, reflects on failures, and adapts
robot behaviors in a closed loop. The self-generated experiences during this
process are then summarized into a long-term memory, enabling retrieval of
learned knowledge to guide future tasks via retrieval-augmented generation
(RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with
an on-demand image annotation module. In experiments, we show that reflection
improves success rates from 36% to 84% on four challenging robotic tasks and
observe the emergence of intelligent object interactions, including creative
tool use. Across extensive tests on 12 real-world scenarios (including eight
unseen ones), we find that grounding with long-term memory boosts single-trial
success rates from 22% to 80%, demonstrating the effectiveness and
generalizability of ExpTeach.