Action100M: Крупномасштабный видеодатасет для распознавания действий
Action100M: A Large-scale Video Action Dataset
January 15, 2026
Авторы: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung
cs.AI
Аннотация
Вывод физических действий из визуальных наблюдений является фундаментальной способностью для развития машинного интеллекта в физическом мире. Для достижения этой цели необходимы масштабные видеодатасеты действий с открытой лексикой, охватывающие широкие предметные области. Мы представляем Action100M — крупномасштабный набор данных, созданный на основе 1.2 млн интернет-инструкционных видео (общей продолжительностью 14.6 лет), который содержит порядка 100 миллионов временно локализованных сегментов с разметкой действий открытой лексики и расширенными описаниями. Action100M генерируется полностью автоматизированным конвейером, который (i) выполняет иерархическую временную сегментацию с использованием эмбеддингов V-JEPA 2, (ii) создает многоуровневые описания кадров и сегментов, организованные в виде Дерева описаний (Tree-of-Captions), и (iii) агрегирует данные с помощью модели логического вывода (GPT-OSS-120B) в рамках многоэтапной процедуры Self-Refine для формирования структурированных аннотаций (краткое/детальное действие, исполнитель, краткое/детальное описание). Обучение модели VL-JEPA на Action100M демонстрирует последовательное улучшение результатов с ростом объема данных и высокую zero-shot производительность на различных бенчмарках распознавания действий, что утверждает Action100M в качестве новой основы для масштабируемых исследований в области понимания видео и моделирования мира.
English
Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.