Action100M: Een grootschalige dataset voor video-acties
Action100M: A Large-scale Video Action Dataset
January 15, 2026
Auteurs: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung
cs.AI
Samenvatting
Het afleiden van fysieke handelingen uit visuele waarnemingen is een fundamentele capaciteit voor de vooruitgang van machine-intelligentie in de fysieke wereld. Het bereiken hiervan vereist grootschalige, open-vocabulary video-actiedatasets die een breed scala aan domeinen bestrijken. Wij introduceren Action100M, een grootschalige dataset samengesteld uit 1.2 miljoen instructievideo's van het internet (14.6 jaar aan totale duur), wat resulteert in O(100 miljoen) tijdelijk gelokaliseerde segmenten met open-vocabulary actiesupervisie en rijke bijschriften. Action100M wordt gegenereerd door een volledig geautomatiseerde pijplijn die (i) hiërarchische temporele segmentatie uitvoert met behulp van V-JEPA 2-embeddingen, (ii) meerniveau bijschriften voor frames en segmenten produceert, georganiseerd als een Tree-of-Captions, en (iii) bewijs aggregeert met een redeneermodel (GPT-OSS-120B) volgens een multi-round Self-Refine-procedure om gestructureerde annotaties uit te voeren (korte/gedetailleerde actie, actor, kort/gedetailleerd bijschrift). Het trainen van VL-JEPA op Action100M toont consistente verbeteringen door dataschaalvergroting en sterke zero-shot prestaties op diverse actieherkenningsbenchmarks, waarmee Action100M zich vestigt als een nieuwe basis voor schaalbare onderzoeken in videobegrip en wereldmodellering.
English
Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.