ナレーションを通じて動画中の指示文を接地する学習
Learning to Ground Instructional Articles in Videos through Narrations
June 6, 2023
著者: Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo Torresani
cs.AI
要旨
本論文では、ナレーション付きハウツービデオにおける手順的活動のステップをローカライズする手法を提案する。大規模なラベル付きデータの不足に対処するため、多様な手順的タスクの指示記事を含む言語知識ベース(wikiHow)からステップ記述を取得する。手動の監視を一切行わずに、我々のモデルはフレーム、ナレーション、ステップ記述という3つのモダリティをマッチングすることで、ハウツービデオにおける手順記事のステップを時間的にグラウンディングすることを学習する。具体的には、我々の手法は2つの異なる経路からの情報を融合してステップをビデオにアライメントする:i) ステップ記述とフレームの直接的なアライメント、ii) ステップとナレーションの対応関係とナレーションとビデオの対応関係を組み合わせた間接的なアライメント。特に、我々のアプローチは順序情報を活用して記事内の全てのステップを一度にグローバルに時間的にグラウンディングし、反復的に洗練され厳格にフィルタリングされたステップ擬似ラベルを用いて訓練される。モデルを検証するため、HowTo100Mの124時間のサブセットを手動でアノテーションし、wikiHow記事から取得したステップを含む新しい評価ベンチマーク——HT-Step——を導入する。このベンチマークでの実験およびCrossTaskでのゼロショット評価により、我々のマルチモダリティアライメントが複数のベースラインや先行研究を大幅に上回ることを示す。最後に、ナレーションとビデオをマッチングする内部モジュールが、HTM-Alignナレーションビデオアライメントベンチマークにおいて、最新技術を大きく上回る性能を発揮することを示す。
English
In this paper we present an approach for localizing steps of procedural
activities in narrated how-to videos. To deal with the scarcity of labeled data
at scale, we source the step descriptions from a language knowledge base
(wikiHow) containing instructional articles for a large variety of procedural
tasks. Without any form of manual supervision, our model learns to temporally
ground the steps of procedural articles in how-to videos by matching three
modalities: frames, narrations, and step descriptions. Specifically, our method
aligns steps to video by fusing information from two distinct pathways: i) {\em
direct} alignment of step descriptions to frames, ii) {\em indirect} alignment
obtained by composing steps-to-narrations with narrations-to-video
correspondences. Notably, our approach performs global temporal grounding of
all steps in an article at once by exploiting order information, and is trained
with step pseudo-labels which are iteratively refined and aggressively
filtered. In order to validate our model we introduce a new evaluation
benchmark -- HT-Step -- obtained by manually annotating a 124-hour subset of
HowTo100MA test server is accessible at
\url{https://eval.ai/web/challenges/challenge-page/2082.} with steps sourced
from wikiHow articles. Experiments on this benchmark as well as zero-shot
evaluations on CrossTask demonstrate that our multi-modality alignment yields
dramatic gains over several baselines and prior works. Finally, we show that
our inner module for matching narration-to-video outperforms by a large margin
the state of the art on the HTM-Align narration-video alignment benchmark.