ChatPaper.aiChatPaper

Action100M : Un jeu de données d'actions vidéo à grande échelle

Action100M: A Large-scale Video Action Dataset

January 15, 2026
papers.authors: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung
cs.AI

papers.abstract

Inférer des actions physiques à partir d'observations visuelles est une capacité fondamentale pour faire progresser l'intelligence artificielle dans le monde physique. Atteindre cet objectif nécessite des jeux de données vidéo d'actions à grande échelle et à vocabulaire ouvert, couvrant de vastes domaines. Nous présentons Action100M, un jeu de données à grande échelle construit à partir de 1,2 million de vidéos pédagogiques issues d'Internet (soit 14,6 années de durée totale), produisant environ 100 millions de segments temporellement localisés avec une supervision d'actions à vocabulaire ouvert et des descriptions riches. Action100M est généré par un pipeline entièrement automatisé qui (i) effectue une segmentation temporelle hiérarchique en utilisant les embeddings de V-JEPA 2, (ii) produit des descriptions à plusieurs niveaux (images et segments) organisées en une Arborescence-de-Descriptions, et (iii) agrège les preuves avec un modèle de raisonnement (GPT-OSS-120B) dans le cadre d'une procédure d'Auto-Raffinement en plusieurs tours pour produire des annotations structurées (action brève/détaillée, acteur, description brève/détaillée). L'entraînement de VL-JEPA sur Action100M démontre des améliorations constantes avec l'augmentation des données et de fortes performances en zero-shot sur divers benchmarks de reconnaissance d'actions, établissant Action100M comme une nouvelle base pour la recherche évolutive en compréhension vidéo et modélisation du monde.
English
Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.
PDF100January 17, 2026