ChatPaper.aiChatPaper

FocusedAD: Karaktergerichte Audiobeschrijving voor Films

FocusedAD: Character-centric Movie Audio Description

April 16, 2025
Auteurs: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI

Samenvatting

Movie Audio Description (AD) heeft als doel visuele inhoud te beschrijven tijdens dialoogvrije segmenten, wat met name voordelig is voor blinde en slechtziende (BVI) kijkers. In vergelijking met algemene videobijschriften vereist AD plotrelevante narratie met expliciete verwijzingen naar karakternamen, wat unieke uitdagingen met zich meebrengt in het begrijpen van films. Om actieve hoofdpersonages te identificeren en te focussen op regio's die relevant zijn voor het verhaal, stellen we FocusedAD voor, een nieuw framework dat karaktergerichte film-audiobeschrijvingen levert. Het omvat: (i) een Character Perception Module (CPM) voor het volgen van karakterregio's en het koppelen ervan aan namen; (ii) een Dynamic Prior Module (DPM) die contextuele aanwijzingen injecteert uit eerdere AD's en ondertitels via leerbare soft prompts; en (iii) een Focused Caption Module (FCM) die narraties genereert die verrijkt zijn met plotrelevante details en benoemde karakters. Om beperkingen in karakteridentificatie te overwinnen, introduceren we ook een geautomatiseerde pipeline voor het bouwen van karakterquerybanken. FocusedAD behaalt state-of-the-art prestaties op meerdere benchmarks, inclusief sterke zero-shot resultaten op MAD-eval-Named en ons nieuw voorgestelde Cinepile-AD-dataset. Code en data zullen worden vrijgegeven op https://github.com/Thorin215/FocusedAD.
English
Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

Summary

AI-Generated Summary

PDF93April 18, 2025