HumanNet : Passage à l’échelle de l’apprentissage vidéo centré sur l’humain à un million d’heures

Résumé

Les progrès en matière d’intelligence incarnée dépendent de plus en plus d’infrastructures de données évolutives. Alors que la vision et le langage ont bénéficié du passage à l’échelle grâce aux corpus internet, l’apprentissage des interactions physiques reste limité par l’absence de données volumineuses, diversifiées et richement annotées sur l’activité humaine. Nous présentons HumanNet, un corpus vidéo centré sur l’humain d’un million d’heures qui capture la manière dont les humains interagissent avec le monde physique à grande échelle. HumanNet couvre à la fois les perspectives à la première et à la troisième personne, et inclut des activités fines, des interactions homme-objet, l’utilisation d’outils ainsi que des comportements à long horizon dans divers environnements réels. Au-delà des vidéos brutes, le jeu de données fournit des annotations centrées sur l’interaction, comprenant des légendes, des descriptions de mouvements et des signaux liés aux mains et au corps, permettant un apprentissage sensible au mouvement et à l’interaction. Au-delà de l’échelle, HumanNet introduit un paradigme systématique de curation des données pour l’apprentissage incarné, où le filtrage centré sur l’humain, la structuration temporelle, la diversité des points de vue et l’enrichissement des annotations sont traités comme des principes de conception de première classe. Cette conception transforme la vidéo internet non structurée en un substrat évolutif pour l’apprentissage de représentations, la compréhension des activités, la génération de mouvements et le transfert de l’humain au robot. Nous réalisons une première validation de la valeur de cette conception par une ablation contrôlée vision-langage-action : sous un ensemble fixe de données de validation, l’entraînement continu du modèle Qwen VLM avec 1 000 heures de vidéo égocentrique issues de HumanNet surpasse l’entraînement continu avec 100 heures de données robotiques réelles provenant de Magic Cobot, ce qui indique que la vidéo humaine égocentrique pourrait constituer un substitut évolutif et économique aux données robotiques. En construisant ce projet, nous visons à explorer la possibilité de passer à l’échelle les modèles de base incarnés en utilisant des vidéos centrées sur l’humain, plutôt que de se reposer uniquement sur des données spécifiques aux robots.

English

Progress in embodied intelligence increasingly depends on scalable data infrastructure. While vision and language have scaled with internet corpora, learning physical interaction remains constrained by the lack of large, diverse, and richly annotated human activity data. We present HumanNet, a one-million-hour human-centric video corpus that captures how humans interact with the physical world at scale. HumanNet spans both first-person and third-person perspectives and covers fine-grained activities, human-object interactions, tool use, and long-horizon behaviors across diverse real-world environments. Beyond raw video, the dataset provides interaction-centric annotations, including captions, motion descriptions, and hand and body-related signals, enabling motion-aware and interaction-aware learning. Beyond scale, HumanNet introduces a systematic data curation paradigm for embodied learning, where human-centric filtering, temporal structuring, viewpoint diversity, and annotation enrichment are treated as first-class design principles. This design transforms unstructured internet video into a scalable substrate for representation learning, activity understanding, motion generation, and human-to-robot transfer. We conduct a first-step validation on the value of this design through controlled vision-language-action ablation: under a fixed set of validation data, continued training from the Qwen VLM model with 1000 hours of egocentric video drawn from HumanNet surpasses the continued training with 100 hours of real-robot data from Magic Cobot, indicating that egocentric human video could be a scalable and cost-effective substitute for robot data. By building this project, we aim to explore the opportunity to scale embodied foundation models using human-centric videos, rather than relying solely on robot-specific data.