ChatPaper.aiChatPaper

Dándole una Mano a los Robots: Aprendizaje de Manipulación Generalizable con Demostraciones Humanas en Video de Ojo en Mano

Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations

July 12, 2023
Autores: Moo Jin Kim, Jiajun Wu, Chelsea Finn
cs.AI

Resumen

Las cámaras montadas en la mano han demostrado ser prometedoras para mejorar la eficiencia de muestreo y la generalización en la manipulación robótica basada en visión. Sin embargo, para la imitación robótica, sigue siendo costoso que un teleoperador humano recolecte grandes cantidades de demostraciones expertas con un robot real. Por otro lado, los videos de humanos realizando tareas son mucho más económicos de recopilar, ya que eliminan la necesidad de experiencia en teleoperación robótica y pueden capturarse rápidamente en una amplia variedad de escenarios. Por lo tanto, las demostraciones en video de humanos representan una fuente de datos prometedora para aprender políticas de manipulación robótica generalizables a gran escala. En este trabajo, complementamos conjuntos de datos estrechos de imitación robótica con amplias demostraciones en video de humanos sin etiquetar para mejorar significativamente la generalización de las políticas visuomotoras de cámaras montadas en la mano. Aunque existe una clara brecha de dominio visual entre los datos humanos y los robóticos, nuestro marco no necesita emplear ningún método explícito de adaptación de dominio, ya que aprovechamos la observabilidad parcial de las cámaras montadas en la mano, así como un esquema simple de enmascaramiento de imágenes fijo. En un conjunto de ocho tareas del mundo real que involucran el control de brazos robóticos tanto de 3 grados de libertad (3-DoF) como de 6 grados de libertad (6-DoF), nuestro método mejora las tasas de éxito de las políticas de manipulación con cámaras montadas en la mano en un 58% (absoluto) en promedio, permitiendo que los robots generalicen tanto a nuevas configuraciones del entorno como a nuevas tareas que no se encuentran en los datos de demostración robótica. Vea los resultados en video en https://giving-robots-a-hand.github.io/.
English
Eye-in-hand cameras have shown promise in enabling greater sample efficiency and generalization in vision-based robotic manipulation. However, for robotic imitation, it is still expensive to have a human teleoperator collect large amounts of expert demonstrations with a real robot. Videos of humans performing tasks, on the other hand, are much cheaper to collect since they eliminate the need for expertise in robotic teleoperation and can be quickly captured in a wide range of scenarios. Therefore, human video demonstrations are a promising data source for learning generalizable robotic manipulation policies at scale. In this work, we augment narrow robotic imitation datasets with broad unlabeled human video demonstrations to greatly enhance the generalization of eye-in-hand visuomotor policies. Although a clear visual domain gap exists between human and robot data, our framework does not need to employ any explicit domain adaptation method, as we leverage the partial observability of eye-in-hand cameras as well as a simple fixed image masking scheme. On a suite of eight real-world tasks involving both 3-DoF and 6-DoF robot arm control, our method improves the success rates of eye-in-hand manipulation policies by 58% (absolute) on average, enabling robots to generalize to both new environment configurations and new tasks that are unseen in the robot demonstration data. See video results at https://giving-robots-a-hand.github.io/ .
PDF30December 15, 2024