ChatPaper.aiChatPaper

Action100M: Ein umfangreicher Videodatensatz für Handlungserkennung

Action100M: A Large-scale Video Action Dataset

January 15, 2026
papers.authors: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung
cs.AI

papers.abstract

Das Ableiten physischer Handlungen aus visuellen Beobachtungen ist eine grundlegende Fähigkeit für die Weiterentwicklung maschineller Intelligenz in der physischen Welt. Um dies zu erreichen, werden große, offen-vokabulare Videoaktionsdatensätze benötigt, die breite Domänen abdecken. Wir stellen Action100M vor, einen großangelegten Datensatz, der aus 1,2 Millionen Internet-Anleitungsvideos (14,6 Jahre Gesamtdauer) erstellt wurde und etwa 100 Millionen zeitlich lokalisierte Segmente mit offen-vokabularer Aktionsannotation und umfangreichen Beschreibungen liefert. Action100M wird durch eine vollständig automatisierte Pipeline generiert, die (i) eine hierarchische temporale Segmentierung unter Verwendung von V-JEPA-2-Embeddings durchführt, (ii) mehrstufige Bild- und Segmentbeschreibungen erzeugt, die als Baum-von-Beschreibungen organisiert sind, und (iii) Evidenzen mit einem Reasoning-Modell (GPT-OSS-120B) in einem mehrstufigen Self-Refine-Verfahren aggregiert, um strukturierte Annotationen auszugeben (kurze/detaillierte Aktion, Akteur, kurze/detaillierte Beschreibung). Das Training von VL-JEPA auf Action100M zeigt konsistente Verbesserungen durch Datenskalierung und starke Zero-Shot-Leistungen über verschiedene Aktionserkennungs-Benchmarks hinweg, was Action100M als neue Grundlage für skalierbare Forschung im Bereich Videoverständnis und Weltmodellierung etabliert.
English
Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.
PDF100January 17, 2026