HumanScale : les vidéos humaines égocentriques peuvent surpasser les données de robots réels pour le pré-entraînement incarné

Résumé

Les modèles fondamentaux incarnés devraient bénéficier de la mise à l'échelle des données, à l'instar des grands modèles de langage, mais ils se heurtent à un goulot d'étranglement bien plus serré en matière de données. Les trajectoires de robots réels téléopérées restent la principale source de pré-entraînement en raison de leur supervision précise des actions et de leur alignement avec l'incarnation, mais leur passage à l'échelle est limité par un coût de collecte élevé, une difficulté d'acquisition, et une faible diversité comportementale et environnementale. Ces limitations ont suscité un intérêt pour la vidéo humaine égocentrique en tant qu'alternative scalable, nettement moins coûteuse et plus diversifiée pour le pré-entraînement des modèles incarnés. Cependant, son efficacité par rapport aux données de robots réels téléopérées reste peu explorée. Pour répondre à cette question, nous menons une étude systématique comparant la vidéo humaine égocentrique et les trajectoires de robots réels téléopérées comme sources de données de pré-entraînement pour les modèles fondamentaux incarnés, dans le cadre de protocoles de post-entraînement et de validation fixes. De manière surprenante, nous constatons que les données égocentriques, lorsqu'elles sont traitées via un pipeline soigneusement conçu de filtrage et d'étiquetage, ne constituent pas seulement un substitut viable pour le pré-entraînement des modèles, mais peuvent conduire à des performances supérieures. Avec une même quantité de données de pré-entraînement, les modèles pré-entraînés sur des données égocentriques atteignent une perte de validation inférieure de 24 % sur la prédiction d'actions de robots réels, ainsi que des taux de réussite supérieurs de 52,5 % et 90 % respectivement pour l'exécution de tâches sur robots réels en distribution et hors distribution. Cette découverte confirme un paradigme scalable pour les modèles fondamentaux incarnés : pré-entraîner sur de la vidéo humaine égocentrique pour apprendre des représentations diverses du monde, puis s'adapter avec une petite quantité de données étiquetées de robots réels pour un alignement de l'espace d'action. Nous espérons que cette étude encouragera une exploration plus large des données égocentriques et offrira des orientations pour l'évaluation de la qualité des données avant une coûteuse collecte de données robotiques.

English

Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalability is limited by high collection cost, acquisition difficulty, and low behavioral and environmental diversity. These limitations have sparked interest in egocentric human video as a scalable, substantially lower-cost, and more diverse alternative for embodied model pretraining. However, its effectiveness compared to teleoperated real-robot data remains underexplored. To address this question, we conduct a systematic study comparing egocentric human video and teleoperated real-robot trajectories as pretraining data sources for embodied foundation models, under fixed post-training and validation protocols. Surprisingly, we find that egocentric data, when processed through a carefully designed filtering and labeling pipeline, is not merely a viable substitute for model pretraining but can lead to superior performance. With the same amount of pretraining data, models pretrained on egocentric data achieve a 24% lower validation loss on real-robot action prediction, as well as 52.5% and 90% higher success rates on in-distribution and out-of-distribution real-robot task execution, respectively. This finding verifies a scalable paradigm for embodied foundation models: pretrain on egocentric human video to learn diverse world representations, then adapt with a small amount of labeled real-robot data for action-space alignment. We hope this study encourages broader exploration of egocentric data and offers guidance for data quality assessment before costly robot data collection.