ChatPaper.aiChatPaper

Action100M:大規模ビデオ行動データセット

Action100M: A Large-scale Video Action Dataset

January 15, 2026
著者: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung
cs.AI

要旨

視覚観察から物理的動作を推論する能力は、物理世界における機械知能を進化させるための基盤的機能である。これを実現するには、広範な領域をカバーする大規模で開放語彙型のビデオ行動データセットが不可欠である。本論文では、120万本のインターネット実演ビデオ(総時間14.6年分)から構築した大規模データセットAction100Mを紹介する。これは、開放語彙型の行動アノテーションと豊富なキャプションを付与された、約1億の時間的に局所化されたセグメントから構成される。Action100Mは、完全に自動化されたパイプラインによって生成される。このパイプラインは、(i) V-JEPA 2の埋め込み表現を用いた階層的時間セグメンテーション、(ii) Tree-of-Captionsとして整理されたマルチレベルでのフレームおよびセグメントキャプションの生成、(iii) 推論モデル(GPT-OSS-120B)によるマルチラウンドのSelf-Refine手順に基づく証拠の統合を行い、構造化されたアノテーション(簡潔/詳細な行動、行為者、簡潔/詳細なキャプション)を出力する。Action100MでVL-JEPAを学習させた結果、データ量のスケーリングに伴う一貫した性能向上と、多様な行動認識ベンチマークにおける強力なゼロショット性能が実証され、Action100Mがビデオ理解と世界モデリングのためのスケーラブルな研究の新たな基盤となることが確認された。
English
Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.
PDF100January 17, 2026