Aprendendo a Ancorar Artigos Instrucionais em Vídeos por meio de Narrações

Resumo

Neste artigo, apresentamos uma abordagem para localizar etapas de atividades procedurais em vídeos instrucionais narrados. Para lidar com a escassez de dados rotulados em escala, obtemos as descrições das etapas de uma base de conhecimento linguística (wikiHow) que contém artigos instrucionais para uma grande variedade de tarefas procedurais. Sem qualquer forma de supervisão manual, nosso modelo aprende a localizar temporalmente as etapas dos artigos procedimentais em vídeos instrucionais ao combinar três modalidades: frames, narrações e descrições das etapas. Especificamente, nosso método alinha as etapas ao vídeo ao fundir informações de dois caminhos distintos: i) alinhamento {\em direto} das descrições das etapas aos frames, ii) alinhamento {\em indireto} obtido ao compor correspondências entre etapas e narrações com correspondências entre narrações e vídeo. Notavelmente, nossa abordagem realiza a localização temporal global de todas as etapas de um artigo de uma só vez ao explorar informações de ordem, e é treinada com pseudo-rótulos de etapas que são refinados iterativamente e filtrados de forma agressiva. Para validar nosso modelo, introduzimos um novo benchmark de avaliação -- HT-Step -- obtido ao anotar manualmente um subconjunto de 124 horas do HowTo100M. O servidor de teste está acessível em \url{https://eval.ai/web/challenges/challenge-page/2082.} com etapas obtidas de artigos do wikiHow. Experimentos nesse benchmark, bem como avaliações zero-shot no CrossTask, demonstram que nosso alinhamento multi-modal proporciona ganhos significativos em relação a várias linhas de base e trabalhos anteriores. Por fim, mostramos que nosso módulo interno para correspondência entre narração e vídeo supera por uma grande margem o estado da arte no benchmark de alinhamento narração-vídeo HTM-Align.

English

In this paper we present an approach for localizing steps of procedural activities in narrated how-to videos. To deal with the scarcity of labeled data at scale, we source the step descriptions from a language knowledge base (wikiHow) containing instructional articles for a large variety of procedural tasks. Without any form of manual supervision, our model learns to temporally ground the steps of procedural articles in how-to videos by matching three modalities: frames, narrations, and step descriptions. Specifically, our method aligns steps to video by fusing information from two distinct pathways: i) {\em direct} alignment of step descriptions to frames, ii) {\em indirect} alignment obtained by composing steps-to-narrations with narrations-to-video correspondences. Notably, our approach performs global temporal grounding of all steps in an article at once by exploiting order information, and is trained with step pseudo-labels which are iteratively refined and aggressively filtered. In order to validate our model we introduce a new evaluation benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of HowTo100MA test server is accessible at \url{https://eval.ai/web/challenges/challenge-page/2082.} with steps sourced from wikiHow articles. Experiments on this benchmark as well as zero-shot evaluations on CrossTask demonstrate that our multi-modality alignment yields dramatic gains over several baselines and prior works. Finally, we show that our inner module for matching narration-to-video outperforms by a large margin the state of the art on the HTM-Align narration-video alignment benchmark.

Aprendendo a Ancorar Artigos Instrucionais em Vídeos por meio de Narrações

Learning to Ground Instructional Articles in Videos through Narrations

Resumo

Support