Aprendiendo a fundamentar artículos instructivos en videos a través de narraciones
Learning to Ground Instructional Articles in Videos through Narrations
June 6, 2023
Autores: Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo Torresani
cs.AI
Resumen
En este artículo presentamos un enfoque para localizar temporalmente los pasos de actividades procedimentales en videos instructivos narrados. Para abordar la escasez de datos etiquetados a gran escala, obtenemos las descripciones de los pasos de una base de conocimiento lingüístico (wikiHow) que contiene artículos instructivos para una amplia variedad de tareas procedimentales. Sin ninguna forma de supervisión manual, nuestro modelo aprende a anclar temporalmente los pasos de los artículos procedimentales en videos instructivos mediante la correspondencia de tres modalidades: fotogramas, narraciones y descripciones de pasos. Específicamente, nuestro método alinea los pasos con el video fusionando información de dos vías distintas: i) alineación {\em directa} de las descripciones de pasos con los fotogramas, ii) alineación {\em indirecta} obtenida al componer las correspondencias pasos-a-narraciones con narraciones-a-video. Cabe destacar que nuestro enfoque realiza un anclaje temporal global de todos los pasos de un artículo simultáneamente al aprovechar la información de orden, y se entrena con pseudo-etiquetas de pasos que se refinan iterativamente y se filtran de manera agresiva. Para validar nuestro modelo, introducimos un nuevo punto de referencia de evaluación -- HT-Step -- obtenido mediante la anotación manual de un subconjunto de 124 horas de HowTo100M. El servidor de pruebas está accesible en \url{https://eval.ai/web/challenges/challenge-page/2082.} con pasos obtenidos de artículos de wikiHow. Los experimentos en este punto de referencia, así como las evaluaciones zero-shot en CrossTask, demuestran que nuestra alineación multimodal produce mejoras significativas frente a varias líneas base y trabajos previos. Finalmente, mostramos que nuestro módulo interno para emparejar narraciones con video supera por un amplio margen el estado del arte en el punto de referencia de alineación narración-video HTM-Align.
English
In this paper we present an approach for localizing steps of procedural
activities in narrated how-to videos. To deal with the scarcity of labeled data
at scale, we source the step descriptions from a language knowledge base
(wikiHow) containing instructional articles for a large variety of procedural
tasks. Without any form of manual supervision, our model learns to temporally
ground the steps of procedural articles in how-to videos by matching three
modalities: frames, narrations, and step descriptions. Specifically, our method
aligns steps to video by fusing information from two distinct pathways: i) {\em
direct} alignment of step descriptions to frames, ii) {\em indirect} alignment
obtained by composing steps-to-narrations with narrations-to-video
correspondences. Notably, our approach performs global temporal grounding of
all steps in an article at once by exploiting order information, and is trained
with step pseudo-labels which are iteratively refined and aggressively
filtered. In order to validate our model we introduce a new evaluation
benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of
HowTo100MA test server is accessible at
\url{https://eval.ai/web/challenges/challenge-page/2082.} with steps sourced
from wikiHow articles. Experiments on this benchmark as well as zero-shot
evaluations on CrossTask demonstrate that our multi-modality alignment yields
dramatic gains over several baselines and prior works. Finally, we show that
our inner module for matching narration-to-video outperforms by a large margin
the state of the art on the HTM-Align narration-video alignment benchmark.