HumanNet: Het opschalen van mensgericht videoleren naar één miljoen uur

Samenvatting

Vooruitgang in belichaamde intelligentie is in toenemende mate afhankelijk van schaalbare data-infrastructuur. Hoewel visie en taal zijn opgeschaald met internetcorpora, blijft het leren van fysieke interactie beperkt door het ontbreken van grote, diverse en rijkelijk geannoteerde data over menselijke activiteit. We presenteren HumanNet, een mensgericht videocorpus van één miljoen uur dat vastlegt hoe mensen op schaal met de fysieke wereld interageren. HumanNet omvat zowel first-person- als third-person-perspectieven en dekt fijnmazige activiteiten, mens-objectinteracties, gereedschapsgebruik en langdurige gedragingen in diverse realistische omgevingen. Naast ruwe video biedt de dataset interactiegerichte annotaties, waaronder bijschriften, bewegingsbeschrijvingen en hand- en lichaamsgerelateerde signalen, wat beweging- en interactiebewust leren mogelijk maakt. Naast schaal introduceert HumanNet een systematisch datacuratieparadigma voor belichaamd leren, waarbij mensgerichte filtering, temporele structurering, perspectiefdiversiteit en annotatieverrijking worden behandeld als eersteklas ontwerpprincipes. Dit ontwerp transformeert ongestructureerde internetvideo tot een schaalbaar substraat voor representatieleren, activiteitsbegrip, bewegingsgeneratie en mens-naar-robotoverdracht. We voeren een eerste validatie uit van de waarde van dit ontwerp via gecontroleerde visie-taal-actie-ablatie: onder een vaste set validatiedata overtreft voortgezette training van het Qwen VLM-model met 1000 uur egocentrische video uit HumanNet de voortgezette training met 100 uur echte robotdata van Magic Cobot, wat aangeeft dat egocentrische menselijke video een schaalbaar en kosteneffectief alternatief kan zijn voor robotdata. Met het opzetten van dit project streven we ernaar de mogelijkheid te verkennen om belichaamde funderingsmodellen op te schalen met behulp van mensgerichte video's, in plaats van uitsluitend te vertrouwen op robotspecifieke data.

English

Progress in embodied intelligence increasingly depends on scalable data infrastructure. While vision and language have scaled with internet corpora, learning physical interaction remains constrained by the lack of large, diverse, and richly annotated human activity data. We present HumanNet, a one-million-hour human-centric video corpus that captures how humans interact with the physical world at scale. HumanNet spans both first-person and third-person perspectives and covers fine-grained activities, human-object interactions, tool use, and long-horizon behaviors across diverse real-world environments. Beyond raw video, the dataset provides interaction-centric annotations, including captions, motion descriptions, and hand and body-related signals, enabling motion-aware and interaction-aware learning. Beyond scale, HumanNet introduces a systematic data curation paradigm for embodied learning, where human-centric filtering, temporal structuring, viewpoint diversity, and annotation enrichment are treated as first-class design principles. This design transforms unstructured internet video into a scalable substrate for representation learning, activity understanding, motion generation, and human-to-robot transfer. We conduct a first-step validation on the value of this design through controlled vision-language-action ablation: under a fixed set of validation data, continued training from the Qwen VLM model with 1000 hours of egocentric video drawn from HumanNet surpasses the continued training with 100 hours of real-robot data from Magic Cobot, indicating that egocentric human video could be a scalable and cost-effective substitute for robot data. By building this project, we aim to explore the opportunity to scale embodied foundation models using human-centric videos, rather than relying solely on robot-specific data.

HumanNet: Het opschalen van mensgericht videoleren naar één miljoen uur

HumanNet: Scaling Human-centric Video Learning to One Million Hours

Samenvatting

Support