Vid2Robot: Aprendizado de Políticas Condicionadas por Vídeo de Ponta a Ponta com Transformadores de Atenção Cruzada
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
Autores: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
Resumo
Enquanto sistemas robóticos em grande escala normalmente dependem de instruções textuais para tarefas, este trabalho explora uma abordagem diferente: os robôs podem inferir a tarefa diretamente ao observar humanos? Essa mudança exige que o robô seja capaz de decodificar a intenção humana e traduzi-la em ações executáveis dentro de suas restrições físicas e ambiente. Apresentamos o Vid2Robot, uma nova estrutura de aprendizado baseada em vídeo de ponta a ponta para robôs. Dada uma demonstração em vídeo de uma tarefa de manipulação e observações visuais atuais, o Vid2Robot produz diretamente ações robóticas. Isso é alcançado por meio de um modelo de representação unificado treinado em um grande conjunto de dados de vídeos humanos e trajetórias robóticas. O modelo aproveita mecanismos de atenção cruzada para fundir características do vídeo de prompt ao estado atual do robô e gerar ações apropriadas que imitam a tarefa observada. Para melhorar ainda mais o desempenho da política, propomos perdas contrastivas auxiliares que aumentam o alinhamento entre as representações de vídeo humano e robótico. Avaliamos o Vid2Robot em robôs do mundo real, demonstrando uma melhoria de 20% no desempenho em comparação com outras políticas condicionadas por vídeo ao usar vídeos de demonstração humana. Além disso, nosso modelo exibe capacidades emergentes, como transferir com sucesso movimentos observados de um objeto para outro e composição de longo horizonte, mostrando assim seu potencial para aplicações do mundo real. Site do projeto: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.io