EgoHumanoid: Desbloqueando a Locomoção-Manipulação em Ambientes Naturais com Demonstração Egocêntrica Livre de Robôs

Resumo

As demonstrações humanas oferecem uma rica diversidade ambiental e escalam naturalmente, tornando-se uma alternativa atrativa à teleoperação robótica. Embora este paradigma tenha avançado a manipulação com braços robóticos, seu potencial para o problema mais desafiador e com maior necessidade de dados da loco-manipulação de humanoides permanece amplamente inexplorado. Apresentamos o EgoHumanoid, o primeiro framework para co-treinar uma política visão-linguagem-ação utilizando abundantes demonstrações humanas egocêntricas juntamente com uma quantidade limitada de dados robóticos, permitindo que humanoides realizem loco-manipulação em diversos ambientes do mundo real. Para preencher a lacuna de corporificação entre humanos e robôs, incluindo discrepâncias na morfologia física e no ponto de vista, introduzimos um pipeline de alinhamento sistemático que abrange desde o design de hardware até o processamento de dados. Um sistema portátil para coleta escalável de dados humanos é desenvolvido, e estabelecemos protocolos de coleta práticos para melhorar a transferibilidade. No centro do nosso pipeline de alinhamento humano-humanoide estão dois componentes-chave. O alinhamento de visão reduz as discrepâncias de domínio visual causadas pela altura da câmera e variação de perspectiva. O alinhamento de ação mapeia os movimentos humanos para um espaço de ação unificado e cinematicamente viável para o controle do humanoide. Extensos experimentos no mundo real demonstram que a incorporação de dados egocêntricos livres de robôs supera significativamente as linhas de base apenas robóticas em 51%, particularmente em ambientes não vistos. Nossa análise revela ainda quais comportamentos são transferidos de forma eficaz e o potencial para escalar dados humanos.

English

Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.

EgoHumanoid: Desbloqueando a Locomoção-Manipulação em Ambientes Naturais com Demonstração Egocêntrica Livre de Robôs

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Resumo

Support