HumanScale: El video humano egocéntrico puede superar los datos de robots reales para el preentrenamiento encarnado
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
June 18, 2026
Autores: Juncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou
cs.AI
Resumen
Se espera que los modelos fundacionales encarnados se beneficien del escalado de datos al igual que los grandes modelos de lenguaje, pero enfrentan un cuello de botella de datos mucho más estricto. Las trayectorias de robots reales teleoperadas siguen siendo la fuente dominante de preentrenamiento debido a su precisa supervisión de acciones y alineación con la encarnación, pero su escalabilidad está limitada por el alto costo de recolección, la dificultad de adquisición y la baja diversidad conductual y ambiental. Estas limitaciones han despertado interés en el video humano egocéntrico como una alternativa escalable, de costo sustancialmente menor y más diversa para el preentrenamiento de modelos encarnados. Sin embargo, su efectividad en comparación con los datos de robots reales teleoperados sigue siendo poco explorada. Para abordar esta cuestión, realizamos un estudio sistemático que compara el video humano egocéntrico y las trayectorias de robots reales teleoperadas como fuentes de datos de preentrenamiento para modelos fundacionales encarnados, bajo protocolos fijos de post-entrenamiento y validación. Sorprendentemente, encontramos que los datos egocéntricos, cuando se procesan a través de un proceso de filtrado y etiquetado cuidadosamente diseñado, no solo son un sustituto viable para el preentrenamiento de modelos, sino que pueden conducir a un rendimiento superior. Con la misma cantidad de datos de preentrenamiento, los modelos preentrenados con datos egocéntricos logran una pérdida de validación un 24% menor en la predicción de acciones de robots reales, así como tasas de éxito un 52.5% y un 90% más altas en la ejecución de tareas de robots reales dentro de la distribución y fuera de la distribución, respectivamente. Este hallazgo verifica un paradigma escalable para modelos fundacionales encarnados: preentrenar con video humano egocéntrico para aprender representaciones diversas del mundo, luego adaptar con una pequeña cantidad de datos etiquetados de robots reales para la alineación del espacio de acciones. Esperamos que este estudio fomente una exploración más amplia de los datos egocéntricos y ofrezca orientación para la evaluación de la calidad de los datos antes de la costosa recolección de datos de robots.
English
Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalability is limited by high collection cost, acquisition difficulty, and low behavioral and environmental diversity. These limitations have sparked interest in egocentric human video as a scalable, substantially lower-cost, and more diverse alternative for embodied model pretraining. However, its effectiveness compared to teleoperated real-robot data remains underexplored. To address this question, we conduct a systematic study comparing egocentric human video and teleoperated real-robot trajectories as pretraining data sources for embodied foundation models, under fixed post-training and validation protocols. Surprisingly, we find that egocentric data, when processed through a carefully designed filtering and labeling pipeline, is not merely a viable substitute for model pretraining but can lead to superior performance. With the same amount of pretraining data, models pretrained on egocentric data achieve a 24% lower validation loss on real-robot action prediction, as well as 52.5% and 90% higher success rates on in-distribution and out-of-distribution real-robot task execution, respectively. This finding verifies a scalable paradigm for embodied foundation models: pretrain on egocentric human video to learn diverse world representations, then adapt with a small amount of labeled real-robot data for action-space alignment. We hope this study encourages broader exploration of egocentric data and offers guidance for data quality assessment before costly robot data collection.