Vid2Robot: Обучение политики, зависящей от видео, с конечным до конца использованием трансформеров с кросс-вниманием.
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
Авторы: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
Аннотация
В то время как крупномасштабные робототехнические системы обычно полагаются на текстовые инструкции для выполнения задач, данная работа исследует другой подход: могут ли роботы выводить задачу непосредственно из наблюдения за людьми? Этот сдвиг требует способности робота декодировать человеческое намерение и преобразовывать его в исполнимые действия в пределах своих физических ограничений и окружающей среды. Мы представляем Vid2Robot, новую концепцию обучения на основе видео для роботов. Учитывая видеодемонстрацию манипуляционной задачи и текущие визуальные наблюдения, Vid2Robot непосредственно генерирует действия робота. Это достигается благодаря унифицированной модели представления, обученной на большом наборе данных видео с участием людей и траекторий роботов. Модель использует механизмы кросс-внимания для слияния характеристик видео с текущим состоянием робота и генерации соответствующих действий, имитирующих наблюдаемую задачу. Для дальнейшего улучшения производительности политики мы предлагаем вспомогательные контрастные потери, которые улучшают соответствие между представлениями видео человека и робота. Мы оцениваем Vid2Robot на реальных роботах, демонстрируя улучшение производительности на 20% по сравнению с другими политиками, условием которых являются видеодемонстрации людей. Кроме того, наша модель обладает внезапными возможностями, такими как успешное передача наблюдаемых движений с одного объекта на другой и композиция с долгосрочными перспективами, тем самым демонстрируя свой потенциал для применения в реальном мире. Веб-сайт проекта: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.ioSummary
AI-Generated Summary