L'expérience est le meilleur professeur : ancrage des modèles de langage visuel pour la robotique grâce à une mémoire auto-générée

papers.abstract

Les modèles vision-langage (VLMs) ont été largement adoptés en robotique pour permettre une planification autonome. Cependant, l'ancrage des VLMs, initialement entraînés sur des données issues d'Internet, à des robots réels et diversifiés reste un défi. Cet article présente ExpTeach, un cadre qui ancre les VLMs à des robots physiques en construisant une mémoire auto-générée d'expériences du monde réel. Dans ExpTeach, le VLM planifie de manière autonome des actions, vérifie les résultats, réfléchit aux échecs et adapte les comportements du robot en boucle fermée. Les expériences auto-générées au cours de ce processus sont ensuite résumées dans une mémoire à long terme, permettant la récupération des connaissances acquises pour guider les tâches futures via la génération augmentée par récupération (RAG). De plus, ExpTeach améliore la compréhension spatiale des VLMs grâce à un module d'annotation d'images à la demande. Dans les expériences, nous montrons que la réflexion améliore les taux de réussite de 36 % à 84 % sur quatre tâches robotiques complexes et observons l'émergence d'interactions intelligentes avec les objets, y compris l'utilisation créative d'outils. À travers des tests approfondis sur 12 scénarios réels (dont huit inédits), nous constatons que l'ancrage avec une mémoire à long terme augmente les taux de réussite en un seul essai de 22 % à 80 %, démontrant ainsi l'efficacité et la généralisabilité d'ExpTeach.

English

Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.

L'expérience est le meilleur professeur : ancrage des modèles de langage visuel pour la robotique grâce à une mémoire auto-générée

Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory

papers.abstract

Support