ChatPaper.aiChatPaper

HumanScale: эгоцентрическое видео человека может превзойти данные реальных роботов для предварительного обучения воплощенных агентов

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

June 18, 2026
Авторы: Juncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou
cs.AI

Аннотация

Ожидается, что воплощенные фундаментальные модели выиграют от масштабирования данных, как и большие языковые модели, но сталкиваются с гораздо более жестким узким местом данных. Траектории реальных роботов, управляемых телеоператором, остаются доминирующим источником предварительного обучения благодаря точному контролю действий и согласованию с воплощением, однако их масштабируемость ограничена высокой стоимостью сбора, сложностью получения и низким разнообразием поведения и окружающей среды. Эти ограничения вызвали интерес к эгоцентрическим видеозаписям человека как масштабируемой, значительно более дешевой и более разнообразной альтернативе для предварительного обучения воплощенных моделей. Однако его эффективность по сравнению с данными реальных роботов, управляемых телеоператором, остается недостаточно изученной. Чтобы ответить на этот вопрос, мы проводим систематическое исследование, сравнивающее эгоцентрические видеозаписи человека и траектории реальных роботов, управляемых телеоператором, в качестве источников данных для предварительного обучения воплощенных фундаментальных моделей, при фиксированных протоколах посттренировки и валидации. Удивительно, но мы обнаруживаем, что эгоцентрические данные, обработанные с помощью тщательно разработанного конвейера фильтрации и маркировки, являются не просто жизнеспособной заменой для предварительного обучения моделей, но могут привести к превосходной производительности. При одинаковом объеме данных для предварительного обучения модели, обученные на эгоцентрических данных, достигают на 24% меньших потерь при валидации при прогнозировании действий реального робота, а также на 52,5% и 90% более высоких показателей успеха при выполнении задач реальным роботом в распределении и вне распределения соответственно. Этот результат подтверждает масштабируемую парадигму для воплощенных фундаментальных моделей: предварительное обучение на эгоцентрических видеозаписях человека для изучения разнообразных представлений мира, затем адаптация с небольшим количеством размеченных данных реальных роботов для согласования пространства действий. Мы надеемся, что это исследование поощрит более широкое изучение эгоцентрических данных и предложит руководство по оценке качества данных перед дорогостоящим сбором данных роботов.
English
Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalability is limited by high collection cost, acquisition difficulty, and low behavioral and environmental diversity. These limitations have sparked interest in egocentric human video as a scalable, substantially lower-cost, and more diverse alternative for embodied model pretraining. However, its effectiveness compared to teleoperated real-robot data remains underexplored. To address this question, we conduct a systematic study comparing egocentric human video and teleoperated real-robot trajectories as pretraining data sources for embodied foundation models, under fixed post-training and validation protocols. Surprisingly, we find that egocentric data, when processed through a carefully designed filtering and labeling pipeline, is not merely a viable substitute for model pretraining but can lead to superior performance. With the same amount of pretraining data, models pretrained on egocentric data achieve a 24% lower validation loss on real-robot action prediction, as well as 52.5% and 90% higher success rates on in-distribution and out-of-distribution real-robot task execution, respectively. This finding verifies a scalable paradigm for embodied foundation models: pretrain on egocentric human video to learn diverse world representations, then adapt with a small amount of labeled real-robot data for action-space alignment. We hope this study encourages broader exploration of egocentric data and offers guidance for data quality assessment before costly robot data collection.