Vid2Robot: Обучение политики, зависящей от видео, с конечным до конца использованием трансформеров с кросс-вниманием.

Аннотация

В то время как крупномасштабные робототехнические системы обычно полагаются на текстовые инструкции для выполнения задач, данная работа исследует другой подход: могут ли роботы выводить задачу непосредственно из наблюдения за людьми? Этот сдвиг требует способности робота декодировать человеческое намерение и преобразовывать его в исполнимые действия в пределах своих физических ограничений и окружающей среды. Мы представляем Vid2Robot, новую концепцию обучения на основе видео для роботов. Учитывая видеодемонстрацию манипуляционной задачи и текущие визуальные наблюдения, Vid2Robot непосредственно генерирует действия робота. Это достигается благодаря унифицированной модели представления, обученной на большом наборе данных видео с участием людей и траекторий роботов. Модель использует механизмы кросс-внимания для слияния характеристик видео с текущим состоянием робота и генерации соответствующих действий, имитирующих наблюдаемую задачу. Для дальнейшего улучшения производительности политики мы предлагаем вспомогательные контрастные потери, которые улучшают соответствие между представлениями видео человека и робота. Мы оцениваем Vid2Robot на реальных роботах, демонстрируя улучшение производительности на 20% по сравнению с другими политиками, условием которых являются видеодемонстрации людей. Кроме того, наша модель обладает внезапными возможностями, такими как успешное передача наблюдаемых движений с одного объекта на другой и композиция с долгосрочными перспективами, тем самым демонстрируя свой потенциал для применения в реальном мире. Веб-сайт проекта: vid2robot.github.io

English

While large-scale robotic systems typically rely on textual instructions for tasks, this work explores a different approach: can robots infer the task directly from observing humans? This shift necessitates the robot's ability to decode human intent and translate it into executable actions within its physical constraints and environment. We introduce Vid2Robot, a novel end-to-end video-based learning framework for robots. Given a video demonstration of a manipulation task and current visual observations, Vid2Robot directly produces robot actions. This is achieved through a unified representation model trained on a large dataset of human video and robot trajectory. The model leverages cross-attention mechanisms to fuse prompt video features to the robot's current state and generate appropriate actions that mimic the observed task. To further improve policy performance, we propose auxiliary contrastive losses that enhance the alignment between human and robot video representations. We evaluate Vid2Robot on real-world robots, demonstrating a 20% improvement in performance compared to other video-conditioned policies when using human demonstration videos. Additionally, our model exhibits emergent capabilities, such as successfully transferring observed motions from one object to another, and long-horizon composition, thus showcasing its potential for real-world applications. Project website: vid2robot.github.io

Vid2Robot: Обучение политики, зависящей от видео, с конечным до конца использованием трансформеров с кросс-вниманием.

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

Аннотация

Support