ChatPaper.aiChatPaper

Ervaring is de beste leermeester: het verankeren van visuele taalmodelen voor robotica door middel van zelf gegenereerd geheugen

Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory

July 22, 2025
Auteurs: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI

Samenvatting

Vision-language models (VLMs) worden veelvuldig ingezet in robotica om autonome planning mogelijk te maken. Het blijft echter een uitdaging om VLMs, die oorspronkelijk zijn getraind op internetdata, te verankeren in diverse real-world robots. Dit artikel introduceert ExpTeach, een raamwerk dat VLMs verankert in fysieke robots door een zelf gegenereerd geheugen van real-world ervaringen op te bouwen. In ExpTeach plant de VLM autonoom acties, verifieert resultaten, reflecteert op mislukkingen en past robotgedragingen aan in een gesloten lus. De zelf gegenereerde ervaringen tijdens dit proces worden samengevat in een langetermijngeheugen, waardoor opgedane kennis kan worden opgehaald om toekomstige taken te begeleiden via retrieval-augmented generation (RAG). Daarnaast verbetert ExpTeach het ruimtelijk begrip van VLMs met een module voor on-demand beeldannotatie. In experimenten tonen we aan dat reflectie de slagingspercentages verbetert van 36% naar 84% bij vier uitdagende robotica-taken en observeren we het ontstaan van intelligente objectinteracties, waaronder creatief gereedschapsgebruik. Uit uitgebreide tests in 12 real-world scenario's (waaronder acht onbekende) blijkt dat verankering met langetermijngeheugen de slagingspercentages in één poging verhoogt van 22% naar 80%, wat de effectiviteit en generaliseerbaarheid van ExpTeach aantoont.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.
PDF212July 23, 2025