Vid2Robot: Aprendizaje de políticas condicionadas por video de extremo a extremo con Transformers de atención cruzada
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
Autores: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
Resumen
Mientras que los sistemas robóticos a gran escala suelen depender de instrucciones textuales para realizar tareas, este trabajo explora un enfoque diferente: ¿pueden los robots inferir la tarea directamente al observar a los humanos? Este cambio requiere que el robot sea capaz de decodificar la intención humana y traducirla en acciones ejecutables dentro de sus limitaciones físicas y entorno. Presentamos Vid2Robot, un novedoso marco de aprendizaje basado en video de extremo a extremo para robots. Dada una demostración en video de una tarea de manipulación y las observaciones visuales actuales, Vid2Robot produce directamente acciones robóticas. Esto se logra mediante un modelo de representación unificado entrenado en un gran conjunto de datos de videos humanos y trayectorias robóticas. El modelo aprovecha mecanismos de atención cruzada para fusionar las características del video de referencia con el estado actual del robot y generar acciones apropiadas que imiten la tarea observada. Para mejorar aún más el rendimiento de la política, proponemos pérdidas contrastivas auxiliares que mejoran la alineación entre las representaciones de video humano y robot. Evaluamos Vid2Robot en robots del mundo real, demostrando una mejora del 20% en el rendimiento en comparación con otras políticas condicionadas por video cuando se utilizan videos de demostración humana. Además, nuestro modelo exhibe capacidades emergentes, como transferir con éxito movimientos observados de un objeto a otro y composición de largo alcance, mostrando así su potencial para aplicaciones en el mundo real. Sitio web del proyecto: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.ioSummary
AI-Generated Summary