La experiencia es la mejor maestra: Fundamentación de los Modelos de Lenguaje Visual para Robótica mediante Memoria Autogenerada

Resumen

Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han sido ampliamente adoptados en robótica para permitir la planificación autónoma. Sin embargo, adaptar los VLMs, originalmente entrenados con datos de internet, a diversos robots del mundo real sigue siendo un desafío. Este artículo presenta ExpTeach, un marco que adapta los VLMs a robots físicos mediante la construcción de una memoria autogenerada de experiencias del mundo real. En ExpTeach, el VLM planifica acciones de manera autónoma, verifica resultados, reflexiona sobre fallos y adapta los comportamientos del robot en un ciclo cerrado. Las experiencias autogeneradas durante este proceso se resumen en una memoria a largo plazo, permitiendo la recuperación de conocimientos aprendidos para guiar tareas futuras mediante la generación aumentada por recuperación (RAG, por sus siglas en inglés). Además, ExpTeach mejora la comprensión espacial de los VLMs con un módulo de anotación de imágenes bajo demanda. En los experimentos, demostramos que la reflexión mejora las tasas de éxito del 36% al 84% en cuatro tareas robóticas desafiantes y observamos la aparición de interacciones inteligentes con objetos, incluyendo el uso creativo de herramientas. En pruebas extensas en 12 escenarios del mundo real (incluyendo ocho no vistos previamente), encontramos que la adaptación con memoria a largo plazo aumenta las tasas de éxito en un solo intento del 22% al 80%, demostrando la efectividad y generalización de ExpTeach.

English

Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.

La experiencia es la mejor maestra: Fundamentación de los Modelos de Lenguaje Visual para Robótica mediante Memoria Autogenerada

Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory

Resumen

Support