Action100M: Um Grande Conjunto de Dados de Ações em Vídeo

Resumo

A inferência de ações físicas a partir de observações visuais é uma capacidade fundamental para o avanço da inteligência artificial no mundo físico. Alcançar este objetivo requer conjuntos de dados de vídeo de ação em larga escala e vocabulário aberto que abranjam domínios amplos. Apresentamos o Action100M, um conjunto de dados em larga escala construído a partir de 1,2 milhão de vídeos instrucionais da Internet (14,6 anos de duração total), resultando em aproximadamente 100 milhões de segmentos temporalmente localizados com supervisão de ação de vocabulário aberto e legendas ricas. O Action100M é gerado por um *pipeline* totalmente automatizado que (i) realiza segmentação temporal hierárquica usando *embeddings* do V-JEPA 2, (ii) produz legendas multinível para quadros e segmentos organizadas como uma "Árvore de Legendas" (*Tree-of-Captions*), e (iii) agrega evidências com um modelo de raciocínio (GPT-OSS-120B) sob um procedimento de "Autorrefinamento" (*Self-Refine*) em múltiplas rodadas para gerar anotações estruturadas (ação breve/detalhada, ator, legenda breve/detalhada). O treinamento do VL-JEPA no Action100M demonstra melhoras consistentes com o aumento da escala de dados e um forte desempenho *zero-shot* em diversos *benchmarks* de reconhecimento de ação, estabelecendo o Action100M como uma nova base para pesquisa escalável em compreensão de vídeo e modelagem do mundo.

English

Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.

Action100M: Um Grande Conjunto de Dados de Ações em Vídeo

Action100M: A Large-scale Video Action Dataset

Resumo

Support