Обучение привязке инструктивных статей к видео через повествование
Learning to Ground Instructional Articles in Videos through Narrations
June 6, 2023
Авторы: Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo Torresani
cs.AI
Аннотация
В данной статье мы представляем подход для локализации этапов процедурных действий в озвученных обучающих видео. Чтобы справиться с недостатком размеченных данных в больших масштабах, мы извлекаем описания этапов из языковой базы знаний (wikiHow), содержащей инструктивные статьи для широкого спектра процедурных задач. Без какого-либо ручного контроля наша модель обучается временной привязке этапов процедурных статей к обучающим видео путем сопоставления трех модальностей: кадров, озвучивания и описаний этапов. В частности, наш метод выравнивает этапы с видео, объединяя информацию из двух различных путей: i) {\em прямое} сопоставление описаний этапов с кадрами, ii) {\em косвенное} сопоставление, полученное путем комбинирования соответствий этапов к озвучиванию и озвучивания к видео. Примечательно, что наш подход выполняет глобальную временную привязку всех этапов статьи одновременно, используя информацию о порядке, и обучается с псевдо-метками этапов, которые итеративно уточняются и агрессивно фильтруются. Для проверки нашей модели мы вводим новый эталонный набор данных для оценки — HT-Step, полученный путем ручной разметки 124-часового подмножества HowTo100M. Тестовый сервер доступен по адресу \url{https://eval.ai/web/challenges/challenge-page/2082.} с этапами, извлеченными из статей wikiHow. Эксперименты на этом эталоне, а также оценки в условиях zero-shot на CrossTask демонстрируют, что наше многомодальное сопоставление обеспечивает значительное улучшение по сравнению с несколькими базовыми методами и предыдущими работами. Наконец, мы показываем, что наш внутренний модуль для сопоставления озвучивания с видео значительно превосходит современные результаты на эталоне HTM-Align для сопоставления озвучивания и видео.
English
In this paper we present an approach for localizing steps of procedural
activities in narrated how-to videos. To deal with the scarcity of labeled data
at scale, we source the step descriptions from a language knowledge base
(wikiHow) containing instructional articles for a large variety of procedural
tasks. Without any form of manual supervision, our model learns to temporally
ground the steps of procedural articles in how-to videos by matching three
modalities: frames, narrations, and step descriptions. Specifically, our method
aligns steps to video by fusing information from two distinct pathways: i) {\em
direct} alignment of step descriptions to frames, ii) {\em indirect} alignment
obtained by composing steps-to-narrations with narrations-to-video
correspondences. Notably, our approach performs global temporal grounding of
all steps in an article at once by exploiting order information, and is trained
with step pseudo-labels which are iteratively refined and aggressively
filtered. In order to validate our model we introduce a new evaluation
benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of
HowTo100MA test server is accessible at
\url{https://eval.ai/web/challenges/challenge-page/2082.} with steps sourced
from wikiHow articles. Experiments on this benchmark as well as zero-shot
evaluations on CrossTask demonstrate that our multi-modality alignment yields
dramatic gains over several baselines and prior works. Finally, we show that
our inner module for matching narration-to-video outperforms by a large margin
the state of the art on the HTM-Align narration-video alignment benchmark.