HumanScale: egocentrische menselijke video kan echte robotdata overtreffen voor belichaamde pre-training

Samenvatting

Belichaamde funderingsmodellen zouden naar verwachting profiteren van dataschaalvergroting zoals grote taalmodellen, maar worden geconfronteerd met een veel strakkere data-knelpunt. Teleoperatie realistische robot-trajecten blijven de dominante vooraf-trainingsbron vanwege hun precieze actiesupervisie en belichaming-afstemming, maar hun schaalbaarheid wordt beperkt door hoge verzamelkosten, moeilijke verkrijgbaarheid en lage gedrags- en omgevingsdiversiteit. Deze beperkingen hebben interesse gewekt in egocentrische menselijke video als een schaalbare, aanzienlijk goedkopere en diversere alternatief voor vooraf trainen van belichaamde modellen. De effectiviteit ervan vergeleken met teleoperatie realistische robot-data blijft echter onderbelicht. Om deze vraag te beantwoorden, voeren we een systematische studie uit waarin we egocentrische menselijke video en teleoperatie realistische robot-trajecten vergelijken als vooraf-trainingsdatabronnen voor belichaamde funderingsmodellen, onder vaste post-training en validatieprotocollen. Verrassend genoeg vinden we dat egocentrische data, wanneer verwerkt via een zorgvuldig ontworpen filter- en labelingspijplijn, niet alleen een levensvatbaar substituut is voor modelvooraf-training, maar kan leiden tot superieure prestaties. Met dezelfde hoeveelheid vooraf-trainingsdata bereiken modellen die zijn vooraf getraind op egocentrische data een 24% lagere validatieverlies op realistische robot-actievoorspelling, evenals 52,5% en 90% hogere slagingspercentages bij respectievelijk binnen-de-verdeling en buiten-de-verdeling realistische robot-taakuitvoering. Deze bevinding bevestigt een schaalbaar paradigma voor belichaamde funderingsmodellen: vooraf trainen op egocentrische menselijke video om diverse wereldrepresentaties te leren, vervolgens aanpassen met een kleine hoeveelheid gelabelde realistische robot-data voor actieruimte-afstemming. We hopen dat deze studie bredere verkenning van egocentrische data aanmoedigt en richtlijnen biedt voor datakwaliteitsbeoordeling voordat kostbare robotdataverzameling plaatsvindt.

English

Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalability is limited by high collection cost, acquisition difficulty, and low behavioral and environmental diversity. These limitations have sparked interest in egocentric human video as a scalable, substantially lower-cost, and more diverse alternative for embodied model pretraining. However, its effectiveness compared to teleoperated real-robot data remains underexplored. To address this question, we conduct a systematic study comparing egocentric human video and teleoperated real-robot trajectories as pretraining data sources for embodied foundation models, under fixed post-training and validation protocols. Surprisingly, we find that egocentric data, when processed through a carefully designed filtering and labeling pipeline, is not merely a viable substitute for model pretraining but can lead to superior performance. With the same amount of pretraining data, models pretrained on egocentric data achieve a 24% lower validation loss on real-robot action prediction, as well as 52.5% and 90% higher success rates on in-distribution and out-of-distribution real-robot task execution, respectively. This finding verifies a scalable paradigm for embodied foundation models: pretrain on egocentric human video to learn diverse world representations, then adapt with a small amount of labeled real-robot data for action-space alignment. We hope this study encourages broader exploration of egocentric data and offers guidance for data quality assessment before costly robot data collection.