Опыт — лучший учитель: закрепление визуально-языковых моделей для робототехники через самоформируемую память
Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory
July 22, 2025
Авторы: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter
cs.AI
Аннотация
Модели, объединяющие зрение и язык (VLMs), широко применяются в робототехнике для обеспечения автономного планирования. Однако адаптация VLMs, изначально обученных на интернет-данных, к разнообразным реальным роботам остается сложной задачей. В данной статье представлен ExpTeach — фреймворк, который адаптирует VLMs к физическим роботам путем создания самоформируемой памяти о реальном опыте. В ExpTeach VLM автономно планирует действия, проверяет результаты, анализирует ошибки и адаптирует поведение робота в замкнутом цикле. Самоформируемый опыт в этом процессе затем обобщается в долговременную память, что позволяет извлекать усвоенные знания для руководства будущими задачами с помощью генерации, усиленной извлечением (RAG). Кроме того, ExpTeach улучшает пространственное понимание VLMs с помощью модуля аннотирования изображений по запросу. В экспериментах мы показываем, что анализ ошибок повышает успешность выполнения с 36% до 84% в четырех сложных робототехнических задачах и наблюдаем появление интеллектуальных взаимодействий с объектами, включая креативное использование инструментов. В ходе обширных тестов на 12 реальных сценариях (включая восемь ранее не встречавшихся) мы обнаружили, что адаптация с использованием долговременной памяти повышает успешность выполнения с первой попытки с 22% до 80%, что демонстрирует эффективность и универсальность ExpTeach.
English
Vision-language models (VLMs) have been widely adopted in robotics to enable
autonomous planning. However, grounding VLMs, originally trained on internet
data, to diverse real-world robots remains a challenge. This paper presents
ExpTeach, a framework that grounds VLMs to physical robots by building a
self-generated memory of real-world experiences. In ExpTeach, the VLM
autonomously plans actions, verifies outcomes, reflects on failures, and adapts
robot behaviors in a closed loop. The self-generated experiences during this
process are then summarized into a long-term memory, enabling retrieval of
learned knowledge to guide future tasks via retrieval-augmented generation
(RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with
an on-demand image annotation module. In experiments, we show that reflection
improves success rates from 36% to 84% on four challenging robotic tasks and
observe the emergence of intelligent object interactions, including creative
tool use. Across extensive tests on 12 real-world scenarios (including eight
unseen ones), we find that grounding with long-term memory boosts single-trial
success rates from 22% to 80%, demonstrating the effectiveness and
generalizability of ExpTeach.