ChatPaper.aiChatPaper

EgoHumanoid: Desbloqueo de la Locomanipulación en Entornos No Controlados mediante Demostración Egocéntrica Libre de Robots

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

February 10, 2026
Autores: Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen
cs.AI

Resumen

Las demostraciones humanas ofrecen una rica diversidad ambiental y se escalan naturalmente, lo que las convierte en una alternativa atractiva a la teleoperación de robots. Si bien este paradigma ha avanzado en la manipulación con brazos robóticos, su potencial para el problema más desafiante y demandante de datos de la locomoción-manipulación (loco-manipulación) humanoide permanece en gran medida inexplorado. Presentamos EgoHumanoid, el primer marco de trabajo para entrenar conjuntamente una política visión-lenguaje-acción utilizando abundantes demostraciones humanas egocéntricas junto con una cantidad limitada de datos robóticos, permitiendo a los humanoides realizar locomoción-manipulación en diversos entornos del mundo real. Para salvar la brecha de encarnación entre humanos y robots, incluidas las discrepancias en la morfología física y el punto de vista, introducimos una canalización de alineación sistemática que abarca desde el diseño del hardware hasta el procesamiento de datos. Se desarrolla un sistema portátil para la recolección escalable de datos humanos y establecemos protocolos de recolección prácticos para mejorar la transferibilidad. En el núcleo de nuestra canalización de alineación de humano a humanoide se encuentran dos componentes clave. La *alineación de vista* reduce las discrepancias del dominio visual causadas por la variación en la altura de la cámara y la perspectiva. La *alineación de acción* mapea los movimientos humanos en un espacio de acción unificado y cinemáticamente factible para el control del humanoide. Experimentos exhaustivos en el mundo real demuestran que la incorporación de datos egocéntricos libres de robots supera significativamente a los baselines que solo usan datos robóticos en un 51%, particularmente en entornos no vistos. Nuestro análisis revela además qué comportamientos se transfieren efectivamente y el potencial para escalar los datos humanos.
English
Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.
PDF131February 14, 2026