HumanScale: Egozentrische menschliche Videos können reale Roboterdaten für das Embodied Pretraining übertreffen

Zusammenfassung

Verkörperte Grundlagenmodelle sollen wie große Sprachmodelle von Datenskalierung profitieren, stehen aber vor einem deutlich engeren Datenengpass. Teleoperierte reale Robotertrajektorien bleiben aufgrund ihrer präzisen Aktionsüberwachung und Ausrichtung auf die Verkörperung die vorherrschende Vortrainingsquelle, doch ihre Skalierbarkeit wird durch hohe Erfassungskosten, schwierige Beschaffung sowie geringe Verhaltens- und Umweltvielfalt eingeschränkt. Diese Einschränkungen haben das Interesse an egozentrischen menschlichen Videos als skalierbare, wesentlich kostengünstigere und vielfältigere Alternative für das Vortraining verkörperter Modelle geweckt. Deren Wirksamkeit im Vergleich zu teleoperierten realen Roboterdaten bleibt jedoch wenig erforscht. Um dieser Frage nachzugehen, führen wir eine systematische Studie durch, die egozentrische menschliche Videos und teleoperierte reale Robotertrajektorien als Vortrainingsdatenquellen für verkörperte Grundlagenmodelle unter festgelegten Post-Training- und Validierungsprotokollen vergleicht. Überraschenderweise stellen wir fest, dass egozentrische Daten, wenn sie durch eine sorgfältig konzipierte Filter- und Labeling-Pipeline verarbeitet werden, nicht nur ein praktikabler Ersatz für das Vortraining sind, sondern zu überlegener Leistung führen können. Bei gleicher Menge an Vortrainingsdaten erzielen Modelle, die auf egozentrischen Daten vortrainiert wurden, einen um 24% niedrigeren Validierungsverlust bei der Vorhersage realer Roboteraktionen sowie um 52,5% bzw. 90% höhere Erfolgsraten bei der Ausführung realer Roboteraufgaben innerhalb bzw. außerhalb der Verteilung. Dieses Ergebnis bestätigt ein skalierbares Paradigma für verkörperte Grundlagenmodelle: Vortraining auf egozentrischen menschlichen Videos, um vielfältige Weltrepräsentationen zu lernen, gefolgt von einer Anpassung mit einer kleinen Menge gekennzeichneter realer Roboterdaten für die Ausrichtung des Aktionsraums. Wir hoffen, dass diese Studie zu einer breiteren Erforschung egozentrischer Daten anregt und eine Orientierungshilfe für die Datenqualitätsbewertung vor der kostspieligen Roboterdatenerfassung bietet.

English

Embodied foundation models are expected to benefit from data scaling like large language models, but face a much tighter data bottleneck. Teleoperated real-robot trajectories remain the dominant pretraining source due to their precise action supervision and embodiment alignment, yet their scalability is limited by high collection cost, acquisition difficulty, and low behavioral and environmental diversity. These limitations have sparked interest in egocentric human video as a scalable, substantially lower-cost, and more diverse alternative for embodied model pretraining. However, its effectiveness compared to teleoperated real-robot data remains underexplored. To address this question, we conduct a systematic study comparing egocentric human video and teleoperated real-robot trajectories as pretraining data sources for embodied foundation models, under fixed post-training and validation protocols. Surprisingly, we find that egocentric data, when processed through a carefully designed filtering and labeling pipeline, is not merely a viable substitute for model pretraining but can lead to superior performance. With the same amount of pretraining data, models pretrained on egocentric data achieve a 24% lower validation loss on real-robot action prediction, as well as 52.5% and 90% higher success rates on in-distribution and out-of-distribution real-robot task execution, respectively. This finding verifies a scalable paradigm for embodied foundation models: pretrain on egocentric human video to learn diverse world representations, then adapt with a small amount of labeled real-robot data for action-space alignment. We hope this study encourages broader exploration of egocentric data and offers guidance for data quality assessment before costly robot data collection.