ChatPaper.aiChatPaper

FocusedAD: Charakterzentrierte Audiodeskription für Filme

FocusedAD: Character-centric Movie Audio Description

April 16, 2025
Autoren: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI

Zusammenfassung

Movie Audio Description (AD) zielt darauf ab, visuelle Inhalte in dialogfreien Abschnitten zu beschreiben und kommt insbesondere blinden und sehbehinderten (BVI) Zuschauern zugute. Im Vergleich zur allgemeinen Videountertitelung erfordert AD eine handlungsrelevante Erzählung mit expliziten Charakternamen, was einzigartige Herausforderungen im Verständnis von Filmen darstellt. Um aktive Hauptcharaktere zu identifizieren und sich auf handlungsrelevante Regionen zu konzentrieren, schlagen wir FocusedAD vor, ein neuartiges Framework, das charakterzentrierte Film-Audio-Deskriptionen liefert. Es umfasst: (i) ein Character Perception Module (CPM) zur Verfolgung von Charakterregionen und deren Verknüpfung mit Namen; (ii) ein Dynamic Prior Module (DPM), das kontextuelle Hinweise aus vorherigen ADs und Untertiteln über lernbare Soft Prompts einfügt; und (iii) ein Focused Caption Module (FCM), das Erzählungen mit handlungsrelevanten Details und benannten Charakteren anreichert. Um die Einschränkungen bei der Charakteridentifikation zu überwinden, führen wir außerdem eine automatisierte Pipeline zur Erstellung von Charakter-Abfragebanken ein. FocusedAD erzielt state-of-the-art Leistungen auf mehreren Benchmarks, einschließlich starker Zero-Shot-Ergebnisse auf MAD-eval-Named und unserem neu vorgeschlagenen Cinepile-AD-Datensatz. Code und Daten werden unter https://github.com/Thorin215/FocusedAD veröffentlicht.
English
Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

Summary

AI-Generated Summary

PDF93April 18, 2025