FocusedAD: キャラクター中心の映画音声解説
FocusedAD: Character-centric Movie Audio Description
April 16, 2025
著者: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI
要旨
映画の音声解説(Audio Description, AD)は、特に視覚障害者や弱視者(BVI)の観客を対象に、台詞のない場面で視覚的な内容をナレーションすることを目的としています。一般的な映像キャプションと比較して、ADはプロットに関連したナレーションと明確なキャラクター名の参照を要求し、映画理解において独特の課題を提起します。主要な登場人物の活動を特定し、ストーリーに関連する領域に焦点を当てるために、我々はキャラクター中心の映画音声解説を提供する新しいフレームワーク「FocusedAD」を提案します。これには以下が含まれます:(i) キャラクター領域を追跡し、名前と関連付けるためのキャラクター知覚モジュール(Character Perception Module, CPM)、(ii) 事前のADや字幕から文脈的な手がかりを学習可能なソフトプロンプトを通じて注入する動的優先モジュール(Dynamic Prior Module, DPM)、(iii) プロットに関連した詳細と名前付きキャラクターを豊かに含むナレーションを生成する焦点キャプションモジュール(Focused Caption Module, FCM)。キャラクター識別の限界を克服するために、キャラクタークエリバンクを構築する自動化されたパイプラインも導入しました。FocusedADは、MAD-eval-Namedや新たに提案したCinepile-ADデータセットを含む複数のベンチマークで最先端の性能を達成し、特にゼロショット設定で強い結果を示しています。コードとデータはhttps://github.com/Thorin215/FocusedADで公開されます。
English
Movie Audio Description (AD) aims to narrate visual content during
dialogue-free segments, particularly benefiting blind and visually impaired
(BVI) audiences. Compared with general video captioning, AD demands
plot-relevant narration with explicit character name references, posing unique
challenges in movie understanding.To identify active main characters and focus
on storyline-relevant regions, we propose FocusedAD, a novel framework that
delivers character-centric movie audio descriptions. It includes: (i) a
Character Perception Module(CPM) for tracking character regions and linking
them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues
from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused
Caption Module(FCM) that generates narrations enriched with plot-relevant
details and named characters. To overcome limitations in character
identification, we also introduce an automated pipeline for building character
query banks. FocusedAD achieves state-of-the-art performance on multiple
benchmarks, including strong zero-shot results on MAD-eval-Named and our newly
proposed Cinepile-AD dataset. Code and data will be released at
https://github.com/Thorin215/FocusedAD .Summary
AI-Generated Summary