La experiencia es la mejor maestra: Fundamentación de los Modelos de Lenguaje Visual para Robótica mediante Memoria Autogenerada
Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory
July 22, 2025
Autores: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han sido ampliamente adoptados en robótica para permitir la planificación autónoma. Sin embargo, adaptar los VLMs, originalmente entrenados con datos de internet, a diversos robots del mundo real sigue siendo un desafío. Este artículo presenta ExpTeach, un marco que adapta los VLMs a robots físicos mediante la construcción de una memoria autogenerada de experiencias del mundo real. En ExpTeach, el VLM planifica acciones de manera autónoma, verifica resultados, reflexiona sobre fallos y adapta los comportamientos del robot en un ciclo cerrado. Las experiencias autogeneradas durante este proceso se resumen en una memoria a largo plazo, permitiendo la recuperación de conocimientos aprendidos para guiar tareas futuras mediante la generación aumentada por recuperación (RAG, por sus siglas en inglés). Además, ExpTeach mejora la comprensión espacial de los VLMs con un módulo de anotación de imágenes bajo demanda. En los experimentos, demostramos que la reflexión mejora las tasas de éxito del 36% al 84% en cuatro tareas robóticas desafiantes y observamos la aparición de interacciones inteligentes con objetos, incluyendo el uso creativo de herramientas. En pruebas extensas en 12 escenarios del mundo real (incluyendo ocho no vistos previamente), encontramos que la adaptación con memoria a largo plazo aumenta las tasas de éxito en un solo intento del 22% al 80%, demostrando la efectividad y generalización de ExpTeach.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable
autonomous planning. However, grounding VLMs, originally trained on internet
data, to diverse real-world robots remains a challenge. This paper presents
ExpTeach, a framework that grounds VLMs to physical robots by building a
self-generated memory of real-world experiences. In ExpTeach, the VLM
autonomously plans actions, verifies outcomes, reflects on failures, and adapts
robot behaviors in a closed loop. The self-generated experiences during this
process are then summarized into a long-term memory, enabling retrieval of
learned knowledge to guide future tasks via retrieval-augmented generation
(RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with
an on-demand image annotation module. In experiments, we show that reflection
improves success rates from 36% to 84% on four challenging robotic tasks and
observe the emergence of intelligent object interactions, including creative
tool use. Across extensive tests on 12 real-world scenarios (including eight
unseen ones), we find that grounding with long-term memory boosts single-trial
success rates from 22% to 80%, demonstrating the effectiveness and
generalizability of ExpTeach.