Обучение на основе огромного объема видеоматериалов с участием людей для универсального управления позами гуманоидов.

Аннотация

Масштабное обучение гуманоидных роботов критически важно для их применения в реальных приложениях. В то время как традиционные подходы в основном опираются на обучение с подкреплением или телеоперацию для достижения управления всем телом, они часто ограничены разнообразием симулируемых сред и высокими затратами на сбор демонстраций. В отличие от этого, видеоматериалы с участием людей повсеместно распространены и представляют собой неиспользованный источник семантической и движущей информации, которая может значительно улучшить возможности обобщения гуманоидных роботов. В данной статье представлен Humanoid-X, крупномасштабный набор данных из более чем 20 миллионов поз гуманоидных роботов с соответствующими текстовыми описаниями движений, разработанный для использования этого обширного объема данных. Humanoid-X создан через комплексный процесс: добыча данных из Интернета, генерация подписей к видео, перенос движений от людей к гуманоидным роботам и обучение стратегии для применения в реальном мире. С использованием Humanoid-X мы дополнительно обучаем большую модель гуманоида, UH-1, которая принимает текстовые инструкции на входе и выдает соответствующие действия для управления гуманоидным роботом. Обширные симулированные и реальные эксперименты подтверждают, что наш подход к масштабному обучению приводит к превосходному обобщению в управлении гуманоидом на основе текста, что является значительным шагом к созданию адаптивных гуманоидов, готовых к работе в реальном мире.

English

Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Обучение на основе огромного объема видеоматериалов с участием людей для универсального управления позами гуманоидов.

Learning from Massive Human Videos for Universal Humanoid Pose Control

Аннотация

Support