Leren van Massieve Menselijke Video's voor Universele Menselijke Positiecontrole

Samenvatting

Het schaalbaar leren van humanoïde robots is cruciaal voor hun inzet in real-world toepassingen. Terwijl traditionele benaderingen voornamelijk vertrouwen op versterkend leren of teleoperatie om volledige lichaamscontrole te bereiken, worden ze vaak beperkt door de diversiteit van gesimuleerde omgevingen en de hoge kosten van demonstratieverzameling. Daarentegen zijn menselijke video's alomtegenwoordig en vormen ze een onbenutte bron van semantische en bewegingsinformatie die aanzienlijk de generalisatiecapaciteiten van humanoïde robots zou kunnen verbeteren. Dit artikel introduceert Humanoid-X, een grootschalige dataset van meer dan 20 miljoen poses van humanoïde robots met bijbehorende op tekst gebaseerde bewegingsbeschrijvingen, ontworpen om te profiteren van deze overvloedige data. Humanoid-X wordt samengesteld via een uitgebreide pipeline: datamining van het internet, generatie van videobijschriften, bewegingsretargeting van mensen naar humanoïde robots, en beleidsleren voor inzet in de echte wereld. Met Humanoid-X trainen we verder een groot humanoïde model, UH-1, dat tekstinstructies als input neemt en overeenkomstige acties genereert om een humanoïde robot te besturen. Uitgebreide gesimuleerde en echte wereld experimenten bevestigen dat onze schaalbare trainingsbenadering leidt tot superieure generalisatie in op tekst gebaseerde controle van humanoïde robots, wat een significante stap betekent naar aanpasbare, klaar voor de echte wereld humanoïde robots.

English

Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.

Leren van Massieve Menselijke Video's voor Universele Menselijke Positiecontrole

Learning from Massive Human Videos for Universal Humanoid Pose Control

Samenvatting

Support