HumanNet: Escalando el Aprendizaje de Video Centrado en Humanos a un Millón de Horas

Resumen

**Progreso en inteligencia encarnada depende cada vez más de infraestructuras de datos escalables.** Mientras que la visión y el lenguaje han escalado con corpus de internet, el aprendizaje de interacción física sigue limitado por la falta de datos extensos, diversos y ricamente anotados sobre actividades humanas. Presentamos **HumanNet**, un corpus de video centrado en humanos de un millón de horas que captura a escala cómo interactuamos con el mundo físico. HumanNet abarca perspectivas en primera y tercera persona, cubriendo actividades detalladas, interacciones humano-objeto, uso de herramientas y comportamientos de largo alcance en diversos entornos reales. Más allá del video en bruto, el conjunto de datos proporciona anotaciones centradas en la interacción, incluyendo descripciones textuales, señales de movimiento y datos relacionados con manos y cuerpo, facilitando el aprendizaje consciente del movimiento y la interacción. Además de su escala, HumanNet introduce un paradigma sistemático de curación de datos para el aprendizaje encarnado, donde el filtrado centrado en humanos, la estructuración temporal, la diversidad de perspectivas y el enriquecimiento de anotaciones se tratan como principios de diseño fundamentales. Este enfoque transforma videos de internet no estructurados en un sustrato escalable para el aprendizaje de representaciones, comprensión de actividades, generación de movimiento y transferencia de humano a robot. Realizamos una validación inicial del valor de este diseño mediante una ablación controlada de visión-lenguaje-acción: bajo un conjunto fijo de datos de validación, el entrenamiento continuo del modelo **Qwen VLM** con 1000 horas de video egocéntrico de HumanNet supera al entrenamiento con 100 horas de datos de robot real de **Magic Cobot**, lo que sugiere que el video humano egocéntrico podría ser un sustituto escalable y rentable de los datos robóticos. Con este proyecto, buscamos explorar la oportunidad de escalar modelos fundacionales encarnados utilizando videos centrados en humanos, en lugar de depender exclusivamente de datos específicos de robots.

English

Progress in embodied intelligence increasingly depends on scalable data infrastructure. While vision and language have scaled with internet corpora, learning physical interaction remains constrained by the lack of large, diverse, and richly annotated human activity data. We present HumanNet, a one-million-hour human-centric video corpus that captures how humans interact with the physical world at scale. HumanNet spans both first-person and third-person perspectives and covers fine-grained activities, human-object interactions, tool use, and long-horizon behaviors across diverse real-world environments. Beyond raw video, the dataset provides interaction-centric annotations, including captions, motion descriptions, and hand and body-related signals, enabling motion-aware and interaction-aware learning. Beyond scale, HumanNet introduces a systematic data curation paradigm for embodied learning, where human-centric filtering, temporal structuring, viewpoint diversity, and annotation enrichment are treated as first-class design principles. This design transforms unstructured internet video into a scalable substrate for representation learning, activity understanding, motion generation, and human-to-robot transfer. We conduct a first-step validation on the value of this design through controlled vision-language-action ablation: under a fixed set of validation data, continued training from the Qwen VLM model with 1000 hours of egocentric video drawn from HumanNet surpasses the continued training with 100 hours of real-robot data from Magic Cobot, indicating that egocentric human video could be a scalable and cost-effective substitute for robot data. By building this project, we aim to explore the opportunity to scale embodied foundation models using human-centric videos, rather than relying solely on robot-specific data.

HumanNet: Escalando el Aprendizaje de Video Centrado en Humanos a un Millón de Horas

HumanNet: Scaling Human-centric Video Learning to One Million Hours

Resumen

Support