EgoHumanoid: Freizügige Loco-Manipulation in unstrukturierten Umgebungen durch roboterfreie egocentrische Demonstration
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
February 10, 2026
papers.authors: Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen
cs.AI
papers.abstract
Menschliche Demonstrationen bieten eine reiche Umweltvielfalt und skalieren auf natürliche Weise, was sie zu einer attraktiven Alternative zur Roboterteleoperation macht. Während dieses Paradigma die Manipulation mit Roboterarmen vorangetrieben hat, ist sein Potenzial für das anspruchsvollere, datenhungrigere Problem der humanoiden Loko-Manipulation weitgehend unerforscht. Wir stellen EgoHumanoid vor, den ersten Rahmenansatz zur gemeinsamen Ausbildung einer Vision-Sprache-Handlungs-Policy unter Verwendung umfangreicher egozentrischer menschlicher Demonstrationen zusammen mit einer begrenzten Menge an Roboterdaten, der Humanoiden ermöglicht, Loko-Manipulation in verschiedenen realen Umgebungen durchzuführen. Um die Verkörperungslücke zwischen Menschen und Robotern, einschließlich der Diskrepanzen in der physischen Morphologie und der Perspektive, zu überbrücken, führen wir eine systematische Abgleichpipeline ein, die vom Hardware-Design bis zur Datenverarbeitung reicht. Es wird ein tragbares System zur skalierbaren Erfassung menschlicher Daten entwickelt, und wir etablieren praktische Erfassungsprotokolle zur Verbesserung der Übertragbarkeit. Im Kern unserer Human-to-Humanoid-Abgleichpipeline liegen zwei Schlüsselkomponenten. Die Blickwinkelanpassung reduziert visuelle Domänenunterschiede, die durch Variationen in Kamerahöhe und Perspektive verursacht werden. Die Handlungsanpassung bildet menschliche Bewegungen in einen einheitlichen, kinematisch machbaren Handlungsraum zur Humanoidsteuerung ab. Umfangreiche Experimente in der realen Welt zeigen, dass die Einbeziehung egozentrischer Daten ohne Robotereinsatz roboterbasierte Vergleichsmodelle um 51 % übertrifft, insbesondere in ungesehenen Umgebungen. Unsere Analyse zeigt weiterhin, welche Verhaltensweisen effektiv übertragbar sind und das Potenzial zur Skalierung menschlicher Daten.
English
Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.