HumanNet: Масштабирование обучения на основе видео с фокусом на человека до одного миллиона часов

Аннотация

Прогресс в области воплощённого интеллекта всё больше зависит от масштабируемой инфраструктуры данных. В то время как обработка изображений и языка масштабировалась благодаря интернет-корпусам, обучение физическому взаимодействию остаётся ограниченным из-за отсутствия крупных, разнообразных и богато аннотированных данных о человеческой деятельности. Мы представляем HumanNet — корпус видеоданных объёмом в миллион часов, ориентированный на человека и фиксирующий его взаимодействие с физическим миром в масштабе. HumanNet охватывает как перспективу от первого лица, так и от третьего лица, включая детализированные действия, взаимодействия человека с объектами, использование инструментов и долгосрочные поведенческие паттерны в различных реальных условиях. Помимо исходного видео, набор данных предоставляет аннотации, ориентированные на взаимодействие, включая описания, характеристики движений, а также сигналы, связанные с руками и телом, что позволяет обучать модели с учётом движений и взаимодействий. Помимо масштаба, HumanNet представляет систематическую парадигму курирования данных для воплощённого обучения, где фильтрация, ориентированная на человека, временная структуризация, разнообразие точек зрения и обогащение аннотаций рассматриваются как ключевые принципы проектирования. Такой подход преобразует неструктурированные интернет-видео в масштабируемую основу для обучения представлений, понимания деятельности, генерации движений и передачи навыков от человека к роботу. Мы проводим первоначальную проверку ценности этого подхода с помощью контролируемого анализа влияния данных на зрение, язык и действия: при фиксированном наборе данных для валидации дополнительное обучение модели Qwen VLM на основе 1000 часов эгоцентричного видео из HumanNet превосходит дополнительное обучение на 100 часах данных реального робота из Magic Cobot, что указывает на возможность использования эгоцентричного видео человека как масштабируемой и экономически эффективной альтернативы данным роботов. Реализуя этот проект, мы стремимся изучить возможность масштабирования базовых моделей воплощённого интеллекта с использованием видео, ориентированных на человека, вместо исключительной зависимости от данных, специфичных для роботов.

English

Progress in embodied intelligence increasingly depends on scalable data infrastructure. While vision and language have scaled with internet corpora, learning physical interaction remains constrained by the lack of large, diverse, and richly annotated human activity data. We present HumanNet, a one-million-hour human-centric video corpus that captures how humans interact with the physical world at scale. HumanNet spans both first-person and third-person perspectives and covers fine-grained activities, human-object interactions, tool use, and long-horizon behaviors across diverse real-world environments. Beyond raw video, the dataset provides interaction-centric annotations, including captions, motion descriptions, and hand and body-related signals, enabling motion-aware and interaction-aware learning. Beyond scale, HumanNet introduces a systematic data curation paradigm for embodied learning, where human-centric filtering, temporal structuring, viewpoint diversity, and annotation enrichment are treated as first-class design principles. This design transforms unstructured internet video into a scalable substrate for representation learning, activity understanding, motion generation, and human-to-robot transfer. We conduct a first-step validation on the value of this design through controlled vision-language-action ablation: under a fixed set of validation data, continued training from the Qwen VLM model with 1000 hours of egocentric video drawn from HumanNet surpasses the continued training with 100 hours of real-robot data from Magic Cobot, indicating that egocentric human video could be a scalable and cost-effective substitute for robot data. By building this project, we aim to explore the opportunity to scale embodied foundation models using human-centric videos, rather than relying solely on robot-specific data.

HumanNet: Масштабирование обучения на основе видео с фокусом на человека до одного миллиона часов

HumanNet: Scaling Human-centric Video Learning to One Million Hours

Аннотация

Support