Aprendiendo a fundamentar artículos instructivos en videos a través de narraciones

Resumen

En este artículo presentamos un enfoque para localizar temporalmente los pasos de actividades procedimentales en videos instructivos narrados. Para abordar la escasez de datos etiquetados a gran escala, obtenemos las descripciones de los pasos de una base de conocimiento lingüístico (wikiHow) que contiene artículos instructivos para una amplia variedad de tareas procedimentales. Sin ninguna forma de supervisión manual, nuestro modelo aprende a anclar temporalmente los pasos de los artículos procedimentales en videos instructivos mediante la correspondencia de tres modalidades: fotogramas, narraciones y descripciones de pasos. Específicamente, nuestro método alinea los pasos con el video fusionando información de dos vías distintas: i) alineación {\em directa} de las descripciones de pasos con los fotogramas, ii) alineación {\em indirecta} obtenida al componer las correspondencias pasos-a-narraciones con narraciones-a-video. Cabe destacar que nuestro enfoque realiza un anclaje temporal global de todos los pasos de un artículo simultáneamente al aprovechar la información de orden, y se entrena con pseudo-etiquetas de pasos que se refinan iterativamente y se filtran de manera agresiva. Para validar nuestro modelo, introducimos un nuevo punto de referencia de evaluación -- HT-Step -- obtenido mediante la anotación manual de un subconjunto de 124 horas de HowTo100M. El servidor de pruebas está accesible en \url{https://eval.ai/web/challenges/challenge-page/2082.} con pasos obtenidos de artículos de wikiHow. Los experimentos en este punto de referencia, así como las evaluaciones zero-shot en CrossTask, demuestran que nuestra alineación multimodal produce mejoras significativas frente a varias líneas base y trabajos previos. Finalmente, mostramos que nuestro módulo interno para emparejar narraciones con video supera por un amplio margen el estado del arte en el punto de referencia de alineación narración-video HTM-Align.

English

In this paper we present an approach for localizing steps of procedural activities in narrated how-to videos. To deal with the scarcity of labeled data at scale, we source the step descriptions from a language knowledge base (wikiHow) containing instructional articles for a large variety of procedural tasks. Without any form of manual supervision, our model learns to temporally ground the steps of procedural articles in how-to videos by matching three modalities: frames, narrations, and step descriptions. Specifically, our method aligns steps to video by fusing information from two distinct pathways: i) {\em direct} alignment of step descriptions to frames, ii) {\em indirect} alignment obtained by composing steps-to-narrations with narrations-to-video correspondences. Notably, our approach performs global temporal grounding of all steps in an article at once by exploiting order information, and is trained with step pseudo-labels which are iteratively refined and aggressively filtered. In order to validate our model we introduce a new evaluation benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of HowTo100MA test server is accessible at \url{https://eval.ai/web/challenges/challenge-page/2082.} with steps sourced from wikiHow articles. Experiments on this benchmark as well as zero-shot evaluations on CrossTask demonstrate that our multi-modality alignment yields dramatic gains over several baselines and prior works. Finally, we show that our inner module for matching narration-to-video outperforms by a large margin the state of the art on the HTM-Align narration-video alignment benchmark.

Aprendiendo a fundamentar artículos instructivos en videos a través de narraciones

Learning to Ground Instructional Articles in Videos through Narrations

Resumen

Support