FocusedAD: Charakterzentrierte Audiodeskription für Filme
FocusedAD: Character-centric Movie Audio Description
April 16, 2025
Autoren: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI
Zusammenfassung
Movie Audio Description (AD) zielt darauf ab, visuelle Inhalte in dialogfreien Abschnitten zu beschreiben und kommt insbesondere blinden und sehbehinderten (BVI) Zuschauern zugute. Im Vergleich zur allgemeinen Videountertitelung erfordert AD eine handlungsrelevante Erzählung mit expliziten Charakternamen, was einzigartige Herausforderungen im Verständnis von Filmen darstellt. Um aktive Hauptcharaktere zu identifizieren und sich auf handlungsrelevante Regionen zu konzentrieren, schlagen wir FocusedAD vor, ein neuartiges Framework, das charakterzentrierte Film-Audio-Deskriptionen liefert. Es umfasst: (i) ein Character Perception Module (CPM) zur Verfolgung von Charakterregionen und deren Verknüpfung mit Namen; (ii) ein Dynamic Prior Module (DPM), das kontextuelle Hinweise aus vorherigen ADs und Untertiteln über lernbare Soft Prompts einfügt; und (iii) ein Focused Caption Module (FCM), das Erzählungen mit handlungsrelevanten Details und benannten Charakteren anreichert. Um die Einschränkungen bei der Charakteridentifikation zu überwinden, führen wir außerdem eine automatisierte Pipeline zur Erstellung von Charakter-Abfragebanken ein. FocusedAD erzielt state-of-the-art Leistungen auf mehreren Benchmarks, einschließlich starker Zero-Shot-Ergebnisse auf MAD-eval-Named und unserem neu vorgeschlagenen Cinepile-AD-Datensatz. Code und Daten werden unter https://github.com/Thorin215/FocusedAD veröffentlicht.
English
Movie Audio Description (AD) aims to narrate visual content during
dialogue-free segments, particularly benefiting blind and visually impaired
(BVI) audiences. Compared with general video captioning, AD demands
plot-relevant narration with explicit character name references, posing unique
challenges in movie understanding.To identify active main characters and focus
on storyline-relevant regions, we propose FocusedAD, a novel framework that
delivers character-centric movie audio descriptions. It includes: (i) a
Character Perception Module(CPM) for tracking character regions and linking
them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues
from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused
Caption Module(FCM) that generates narrations enriched with plot-relevant
details and named characters. To overcome limitations in character
identification, we also introduce an automated pipeline for building character
query banks. FocusedAD achieves state-of-the-art performance on multiple
benchmarks, including strong zero-shot results on MAD-eval-Named and our newly
proposed Cinepile-AD dataset. Code and data will be released at
https://github.com/Thorin215/FocusedAD .Summary
AI-Generated Summary