ChatPaper.aiChatPaper

Aprendizaje a partir de vídeos humanos masivos para el control universal de posturas humanoides.

Learning from Massive Human Videos for Universal Humanoid Pose Control

December 18, 2024
Autores: Jiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang
cs.AI

Resumen

El aprendizaje escalable de robots humanoides es crucial para su despliegue en aplicaciones del mundo real. Mientras que los enfoques tradicionales se basan principalmente en el aprendizaje por refuerzo o la teleoperación para lograr el control de todo el cuerpo, a menudo se ven limitados por la diversidad de entornos simulados y los altos costos de recopilación de demostraciones. En contraste, los videos humanos son ubicuos y representan una fuente inexplorada de información semántica y de movimiento que podría mejorar significativamente las capacidades de generalización de los robots humanoides. Este artículo presenta Humanoid-X, un conjunto de datos a gran escala de más de 20 millones de posturas de robots humanoides con descripciones de movimiento basadas en texto correspondientes, diseñado para aprovechar estos datos abundantes. Humanoid-X se cura a través de un proceso integral: extracción de datos de Internet, generación de subtítulos de video, retargeting de movimiento de humanos a robots humanoides y aprendizaje de políticas para despliegue en el mundo real. Con Humanoid-X, entrenamos además un modelo de robot humanoide grande, UH-1, que recibe instrucciones de texto como entrada y produce acciones correspondientes para controlar un robot humanoide. Experimentos extensos simulados y en el mundo real validan que nuestro enfoque de entrenamiento escalable conduce a una mejor generalización en el control de humanoides basado en texto, marcando un paso significativo hacia robots humanoides adaptables y listos para el mundo real.
English
Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Summary

AI-Generated Summary

PDF102December 19, 2024