Action100M: 대규모 비디오 동작 데이터셋
Action100M: A Large-scale Video Action Dataset
January 15, 2026
저자: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung
cs.AI
초록
시각적 관찰로부터 물리적 행동을 추론하는 것은 물리적 세계에서 기계 지능을 발전시키기 위한 핵심 능력입니다. 이를 달성하려면 다양한 영역을 아우르는 대규모의 개방형 어휘 비디오 행동 데이터셋이 필요합니다. 우리는 120만 개의 인터넷 강의 비디오(총 재생 시간 14.6년)로 구성된 대규모 데이터셋인 Action100M을 소개합니다. 이 데이터셋은 개방형 어휘 행동 감독과 풍부한 캡션을 갖춘 약 1억 개의 시간적 국소화 세그먼트를 제공합니다. Action100M은 (i) V-JEPA 2 임베딩을 사용한 계층적 시간 분할 수행, (ii) Tree-of-Captions로 구성된 다단계 프레임 및 세그먼트 캡션 생성, (iii) 다중 라운드 Self-Refine 절차 하에서 추론 모델(GPT-OSS-120B)을 통한 증거 통합으로 구조화된 주석(간략/상세 행동, 행위자, 간략/상세 캡션)을 출력하는 완전 자동화 파이프라인으로 생성됩니다. Action100M으로 VL-JEPA를 학습한 결과 다양한 행동 인식 벤치마크에서 일관된 데이터 스케일링 성능 향상과 강력한 제로샷 성능을 확인하여, Action100M이 비디오 이해 및 세계 모델링 연구의 새로운 기반으로 자리매김함을 입증했습니다.
English
Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.