HumanScale: Vídeo Humano Egocêntrico Pode Superar Dados Reais de Robô para Pré-Treinamento Corporificado
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
June 18, 2026
Autores: Juncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou
cs.AI
Resumo
Modelos fundamentais incorporados devem se beneficiar da escalabilidade de dados, assim como grandes modelos de linguagem, mas enfrentam um gargalo de dados muito mais restrito. Trajetórias de robôs reais teleoperadas continuam sendo a principal fonte de pré-treinamento devido à sua supervisão precisa de ações e alinhamento com a incorporação, mas sua escalabilidade é limitada pelo alto custo de coleta, dificuldade de aquisição e baixa diversidade comportamental e ambiental. Essas limitações despertaram interesse em vídeos humanos egocêntricos como uma alternativa escalável, substancialmente mais barata e mais diversa para o pré-treinamento de modelos fundamentais incorporados. No entanto, sua eficácia em comparação com dados de robôs reais teleoperados ainda é pouco explorada. Para abordar essa questão, conduzimos um estudo sistemático comparando vídeos humanos egocêntricos e trajetórias de robôs reais teleoperadas como fontes de dados de pré-treinamento para modelos fundamentais incorporados, sob protocolos fixos de pós-treinamento e validação. Surpreendentemente, descobrimos que dados egocêntricos, quando processados por um pipeline cuidadosamente projetado de filtragem e rotulagem, não são apenas um substituto viável para o pré-treinamento de modelos, mas podem levar a um desempenho superior. Com a mesma quantidade de dados de pré-treinamento, modelos pré-treinados em dados egocêntricos alcançam uma perda de validação 24% menor na predição de ações de robôs reais, bem como taxas de sucesso 52,5% e 90% maiores na execução de tarefas em robôs reais dentro da distribuição e fora da distribuição, respectivamente. Essa descoberta verifica um paradigma escalável para modelos fundamentais incorporados: pré-treinar em vídeos humanos egocêntricos para aprender representações diversas do mundo e, em seguida, adaptar com uma pequena quantidade de dados rotulados de robôs reais para alinhamento do espaço de ações. Esperamos que este estudo incentive uma exploração mais ampla de dados egocêntricos e ofereça orientações para a avaliação da qualidade dos dados antes da custosa coleta de dados robóticos.
English
Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalability is limited by high collection cost, acquisition difficulty, and low behavioral and environmental diversity. These limitations have sparked interest in egocentric human video as a scalable, substantially lower-cost, and more diverse alternative for embodied model pretraining. However, its effectiveness compared to teleoperated real-robot data remains underexplored. To address this question, we conduct a systematic study comparing egocentric human video and teleoperated real-robot trajectories as pretraining data sources for embodied foundation models, under fixed post-training and validation protocols. Surprisingly, we find that egocentric data, when processed through a carefully designed filtering and labeling pipeline, is not merely a viable substitute for model pretraining but can lead to superior performance. With the same amount of pretraining data, models pretrained on egocentric data achieve a 24% lower validation loss on real-robot action prediction, as well as 52.5% and 90% higher success rates on in-distribution and out-of-distribution real-robot task execution, respectively. This finding verifies a scalable paradigm for embodied foundation models: pretrain on egocentric human video to learn diverse world representations, then adapt with a small amount of labeled real-robot data for action-space alignment. We hope this study encourages broader exploration of egocentric data and offers guidance for data quality assessment before costly robot data collection.