ChatPaper.aiChatPaper

Apprentissage à partir de vidéos humaines massives pour le contrôle universel de la pose des humanoïdes

Learning from Massive Human Videos for Universal Humanoid Pose Control

December 18, 2024
Auteurs: Jiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang
cs.AI

Résumé

L'apprentissage évolutif des robots humanoïdes est crucial pour leur déploiement dans des applications du monde réel. Alors que les approches traditionnelles reposent principalement sur l'apprentissage par renforcement ou la téléopération pour parvenir à un contrôle complet du corps, elles sont souvent limitées par la diversité des environnements simulés et les coûts élevés de collecte des démonstrations. En revanche, les vidéos humaines sont omniprésentes et constituent une source inexploitée d'informations sémantiques et de mouvement qui pourraient améliorer considérablement les capacités de généralisation des robots humanoïdes. Ce document présente Humanoid-X, un ensemble de données à grande échelle de plus de 20 millions de poses de robots humanoïdes avec des descriptions de mouvement basées sur du texte correspondantes, conçu pour exploiter ces données abondantes. Humanoid-X est élaboré à travers un processus complet : extraction de données sur Internet, génération de légendes vidéo, retargeting de mouvement des humains vers les robots humanoïdes, et apprentissage de politiques pour le déploiement dans le monde réel. Avec Humanoid-X, nous entraînons en outre un grand modèle humanoïde, UH-1, qui prend des instructions textuelles en entrée et produit des actions correspondantes pour contrôler un robot humanoïde. Des expériences étendues simulées et réelles valident que notre approche d'entraînement évolutif conduit à une meilleure généralisation dans le contrôle humanoïde basé sur du texte, marquant une avancée significative vers des robots humanoïdes adaptables et prêts pour le monde réel.
English
Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Summary

AI-Generated Summary

PDF102December 19, 2024