Lernen aus umfangreichen menschlichen Videos für universelle Steuerung der menschlichen Körperhaltung

papers.abstract

Das skalierbare Lernen von humanoiden Robotern ist entscheidend für ihren Einsatz in realen Anwendungen. Während herkömmliche Ansätze hauptsächlich auf Verstärkungslernen oder Teleoperation zur Erreichung einer Ganzkörperkontrolle setzen, sind sie oft durch die Vielfalt simulierter Umgebungen und die hohen Kosten für die Datensammlung bei Demonstrationen begrenzt. Im Gegensatz dazu sind menschliche Videos allgegenwärtig und stellen eine unerschlossene Quelle semantischer und Bewegungsinformationen dar, die die Verallgemeinerungsfähigkeiten humanoider Roboter erheblich verbessern könnten. Dieser Artikel stellt Humanoid-X vor, einen groß angelegten Datensatz von über 20 Millionen Posen humanoider Roboter mit entsprechenden textbasierten Bewegungsbeschreibungen, der darauf abzielt, diese reichhaltigen Daten zu nutzen. Humanoid-X wird durch einen umfassenden Prozess kuratiert: Datengewinnung aus dem Internet, Generierung von Videobeschreibungen, Bewegungsübertragung von Menschen auf humanoide Roboter und Richtlinienlernen für den Einsatz im realen Umfeld. Mit Humanoid-X trainieren wir weiterhin ein großes humanoides Modell, UH-1, das Textanweisungen als Eingabe erhält und entsprechende Aktionen ausgibt, um einen humanoiden Roboter zu steuern. Umfangreiche simulierte und reale Experimente bestätigen, dass unser skalierbarer Trainingsansatz zu einer überlegenen Verallgemeinerung bei der textbasierten Steuerung humanoider Roboter führt und somit einen bedeutenden Schritt hin zu anpassungsfähigen, einsatzbereiten humanoiden Robotern darstellt.

English

Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Lernen aus umfangreichen menschlichen Videos für universelle Steuerung der menschlichen Körperhaltung

Learning from Massive Human Videos for Universal Humanoid Pose Control

papers.abstract

Support