ChatPaper.aiChatPaper

L'esperienza è la Migliore Maestra: Fondare i Modelli Linguistico-Visuali per la Robotica attraverso Memorie Auto-Generate

Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory

July 22, 2025
Autori: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) sono stati ampiamente adottati nella robotica per abilitare la pianificazione autonoma. Tuttavia, adattare i VLMs, originariamente addestrati su dati provenienti da internet, a robot reali e diversificati rimane una sfida. Questo articolo presenta ExpTeach, un framework che adatta i VLMs ai robot fisici costruendo una memoria autogenerata di esperienze del mondo reale. In ExpTeach, il VLM pianifica autonomamente le azioni, verifica i risultati, riflette sugli errori e adatta i comportamenti del robot in un ciclo chiuso. Le esperienze autogenerate durante questo processo vengono poi sintetizzate in una memoria a lungo termine, consentendo il recupero delle conoscenze apprese per guidare compiti futuri tramite la generazione aumentata dal recupero (RAG). Inoltre, ExpTeach migliora la comprensione spaziale dei VLMs con un modulo di annotazione delle immagini su richiesta. Negli esperimenti, dimostriamo che la riflessione migliora i tassi di successo dal 36% all'84% in quattro compiti robotici impegnativi e osserviamo l'emergere di interazioni intelligenti con gli oggetti, incluso l'uso creativo di strumenti. In test estensivi su 12 scenari del mondo reale (inclusi otto non visti in precedenza), riscontriamo che l'adattamento con memoria a lungo termine aumenta i tassi di successo in singola prova dal 22% all'80%, dimostrando l'efficacia e la generalizzabilità di ExpTeach.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.
PDF212July 23, 2025