L'expérience est le meilleur professeur : ancrage des modèles de langage visuel pour la robotique grâce à une mémoire auto-générée
Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory
July 22, 2025
papers.authors: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) ont été largement adoptés en robotique pour permettre une planification autonome. Cependant, l'ancrage des VLMs, initialement entraînés sur des données issues d'Internet, à des robots réels et diversifiés reste un défi. Cet article présente ExpTeach, un cadre qui ancre les VLMs à des robots physiques en construisant une mémoire auto-générée d'expériences du monde réel. Dans ExpTeach, le VLM planifie de manière autonome des actions, vérifie les résultats, réfléchit aux échecs et adapte les comportements du robot en boucle fermée. Les expériences auto-générées au cours de ce processus sont ensuite résumées dans une mémoire à long terme, permettant la récupération des connaissances acquises pour guider les tâches futures via la génération augmentée par récupération (RAG). De plus, ExpTeach améliore la compréhension spatiale des VLMs grâce à un module d'annotation d'images à la demande. Dans les expériences, nous montrons que la réflexion améliore les taux de réussite de 36 % à 84 % sur quatre tâches robotiques complexes et observons l'émergence d'interactions intelligentes avec les objets, y compris l'utilisation créative d'outils. À travers des tests approfondis sur 12 scénarios réels (dont huit inédits), nous constatons que l'ancrage avec une mémoire à long terme augmente les taux de réussite en un seul essai de 22 % à 80 %, démontrant ainsi l'efficacité et la généralisabilité d'ExpTeach.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable
autonomous planning. However, grounding VLMs, originally trained on internet
data, to diverse real-world robots remains a challenge. This paper presents
ExpTeach, a framework that grounds VLMs to physical robots by building a
self-generated memory of real-world experiences. In ExpTeach, the VLM
autonomously plans actions, verifies outcomes, reflects on failures, and adapts
robot behaviors in a closed loop. The self-generated experiences during this
process are then summarized into a long-term memory, enabling retrieval of
learned knowledge to guide future tasks via retrieval-augmented generation
(RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with
an on-demand image annotation module. In experiments, we show that reflection
improves success rates from 36% to 84% on four challenging robotic tasks and
observe the emergence of intelligent object interactions, including creative
tool use. Across extensive tests on 12 real-world scenarios (including eight
unseen ones), we find that grounding with long-term memory boosts single-trial
success rates from 22% to 80%, demonstrating the effectiveness and
generalizability of ExpTeach.