ChatPaper.aiChatPaper

A Experiência é a Melhor Professora: Fundamentando VLMs para Robótica por meio de Memória Autogerada

Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory

July 22, 2025
Autores: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI

Resumo

Modelos visão-linguagem (VLMs) têm sido amplamente adotados em robótica para permitir planejamento autônomo. No entanto, ancorar VLMs, originalmente treinados em dados da internet, a diversos robôs do mundo real continua sendo um desafio. Este artigo apresenta o ExpTeach, uma estrutura que ancora VLMs a robôs físicos construindo uma memória autogerada de experiências do mundo real. No ExpTeach, o VLM planeja ações de forma autônoma, verifica resultados, reflete sobre falhas e adapta comportamentos do robô em um ciclo fechado. As experiências autogeradas durante esse processo são então resumidas em uma memória de longo prazo, permitindo a recuperação de conhecimentos aprendidos para orientar tarefas futuras por meio de geração aumentada por recuperação (RAG). Além disso, o ExpTeach aprimora a compreensão espacial dos VLMs com um módulo de anotação de imagens sob demanda. Em experimentos, mostramos que a reflexão melhora as taxas de sucesso de 36% para 84% em quatro tarefas robóticas desafiadoras e observamos o surgimento de interações inteligentes com objetos, incluindo o uso criativo de ferramentas. Em testes extensivos em 12 cenários do mundo real (incluindo oito inéditos), descobrimos que a ancoragem com memória de longo prazo aumenta as taxas de sucesso em tentativas únicas de 22% para 80%, demonstrando a eficácia e a generalizabilidade do ExpTeach.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.
PDF212July 23, 2025