EgoHumanoid: Освоение локомоторно-манипулятивной деятельности в естественной среде с помощью роботонезависимых эгоцентричных демонстраций
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
February 10, 2026
Авторы: Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen
cs.AI
Аннотация
Демонстрации человека предоставляют богатое разнообразие сред и легко масштабируются, что делает их привлекательной альтернативой телеуправлению роботами. Хотя эта парадигма продвинула манипуляцию с помощью роботизированных манипуляторов, её потенциал для более сложной, требующей больших данных проблемы локоманипуляции гуманоидами остаётся в значительной степени неисследованным. Мы представляем EgoHumanoid — первую систему, которая совместно обучает политику "визуальный язык — действие", используя обильные эгоцентричные демонстрации человека вместе с ограниченным количеством роботизированных данных, что позволяет гуманоидам выполнять локоманипуляцию в различных реальных условиях. Чтобы преодолеть разрыв в воплощении между человеком и роботом, включая различия в физической морфологии и точке обзора, мы вводим системный конвейер выравнивания, охватывающий всё от проектирования аппаратного обеспечения до обработки данных. Разработана портативная система для масштабируемого сбора человеческих данных, и мы устанавливаем практические протоколы сбора для повышения переносимости. В основе нашего конвейера выравнивания "человек-гуманоид" лежат два ключевых компонента. *Выравнивание обзора* уменьшает расхождения в визуальной области, вызванные разницей в высоте камеры и вариациями перспективы. *Выравнивание действий* преобразует человеческие движения в единое, кинематически feasible пространство действий для управления гуманоидом. Многочисленные эксперименты в реальном мире демонстрируют, что включение эгоцентричных данных, не требующих участия робота, значительно превосходит базовые подходы, использующие только данные робота, на 51%, особенно в незнакомых средах. Наш анализ дополнительно показывает, какие поведения эффективно переносятся, и раскрывает потенциал масштабирования человеческих данных.
English
Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.