Aprendendo a Ancorar Artigos Instrucionais em Vídeos por meio de Narrações
Learning to Ground Instructional Articles in Videos through Narrations
June 6, 2023
Autores: Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo Torresani
cs.AI
Resumo
Neste artigo, apresentamos uma abordagem para localizar etapas de atividades procedurais em vídeos instrucionais narrados. Para lidar com a escassez de dados rotulados em escala, obtemos as descrições das etapas de uma base de conhecimento linguística (wikiHow) que contém artigos instrucionais para uma grande variedade de tarefas procedurais. Sem qualquer forma de supervisão manual, nosso modelo aprende a localizar temporalmente as etapas dos artigos procedimentais em vídeos instrucionais ao combinar três modalidades: frames, narrações e descrições das etapas. Especificamente, nosso método alinha as etapas ao vídeo ao fundir informações de dois caminhos distintos: i) alinhamento {\em direto} das descrições das etapas aos frames, ii) alinhamento {\em indireto} obtido ao compor correspondências entre etapas e narrações com correspondências entre narrações e vídeo. Notavelmente, nossa abordagem realiza a localização temporal global de todas as etapas de um artigo de uma só vez ao explorar informações de ordem, e é treinada com pseudo-rótulos de etapas que são refinados iterativamente e filtrados de forma agressiva. Para validar nosso modelo, introduzimos um novo benchmark de avaliação -- HT-Step -- obtido ao anotar manualmente um subconjunto de 124 horas do HowTo100M. O servidor de teste está acessível em \url{https://eval.ai/web/challenges/challenge-page/2082.} com etapas obtidas de artigos do wikiHow. Experimentos nesse benchmark, bem como avaliações zero-shot no CrossTask, demonstram que nosso alinhamento multi-modal proporciona ganhos significativos em relação a várias linhas de base e trabalhos anteriores. Por fim, mostramos que nosso módulo interno para correspondência entre narração e vídeo supera por uma grande margem o estado da arte no benchmark de alinhamento narração-vídeo HTM-Align.
English
In this paper we present an approach for localizing steps of procedural
activities in narrated how-to videos. To deal with the scarcity of labeled data
at scale, we source the step descriptions from a language knowledge base
(wikiHow) containing instructional articles for a large variety of procedural
tasks. Without any form of manual supervision, our model learns to temporally
ground the steps of procedural articles in how-to videos by matching three
modalities: frames, narrations, and step descriptions. Specifically, our method
aligns steps to video by fusing information from two distinct pathways: i) {\em
direct} alignment of step descriptions to frames, ii) {\em indirect} alignment
obtained by composing steps-to-narrations with narrations-to-video
correspondences. Notably, our approach performs global temporal grounding of
all steps in an article at once by exploiting order information, and is trained
with step pseudo-labels which are iteratively refined and aggressively
filtered. In order to validate our model we introduce a new evaluation
benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of
HowTo100MA test server is accessible at
\url{https://eval.ai/web/challenges/challenge-page/2082.} with steps sourced
from wikiHow articles. Experiments on this benchmark as well as zero-shot
evaluations on CrossTask demonstrate that our multi-modality alignment yields
dramatic gains over several baselines and prior works. Finally, we show that
our inner module for matching narration-to-video outperforms by a large margin
the state of the art on the HTM-Align narration-video alignment benchmark.