FocusedAD : Description audio centrée sur les personnages pour les films
FocusedAD: Character-centric Movie Audio Description
April 16, 2025
Auteurs: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI
Résumé
La Description Audio (DA) de films vise à narrer le contenu visuel pendant les segments sans dialogue, bénéficiant particulièrement aux publics aveugles et malvoyants (AMV). Par rapport au sous-titrage vidéo général, la DA exige une narration pertinente à l'intrigue avec des références explicites aux noms des personnages, posant des défis uniques dans la compréhension des films. Pour identifier les personnages principaux actifs et se concentrer sur les régions pertinentes à l'histoire, nous proposons FocusedAD, un nouveau cadre qui fournit des descriptions audio de films centrées sur les personnages. Il comprend : (i) un Module de Perception des Personnages (CPM) pour suivre les régions des personnages et les relier à leurs noms ; (ii) un Module de Priorité Dynamique (DPM) qui injecte des indices contextuels à partir des DA et sous-titres précédents via des invites douces apprenables ; et (iii) un Module de Légende Ciblée (FCM) qui génère des narrations enrichies de détails pertinents à l'intrigue et de personnages nommés. Pour surmonter les limites de l'identification des personnages, nous introduisons également un pipeline automatisé pour construire des banques de requêtes de personnages. FocusedAD atteint des performances de pointe sur plusieurs benchmarks, y compris des résultats solides en zero-shot sur MAD-eval-Named et notre nouveau jeu de données Cinepile-AD. Le code et les données seront publiés sur https://github.com/Thorin215/FocusedAD.
English
Movie Audio Description (AD) aims to narrate visual content during
dialogue-free segments, particularly benefiting blind and visually impaired
(BVI) audiences. Compared with general video captioning, AD demands
plot-relevant narration with explicit character name references, posing unique
challenges in movie understanding.To identify active main characters and focus
on storyline-relevant regions, we propose FocusedAD, a novel framework that
delivers character-centric movie audio descriptions. It includes: (i) a
Character Perception Module(CPM) for tracking character regions and linking
them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues
from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused
Caption Module(FCM) that generates narrations enriched with plot-relevant
details and named characters. To overcome limitations in character
identification, we also introduce an automated pipeline for building character
query banks. FocusedAD achieves state-of-the-art performance on multiple
benchmarks, including strong zero-shot results on MAD-eval-Named and our newly
proposed Cinepile-AD dataset. Code and data will be released at
https://github.com/Thorin215/FocusedAD .Summary
AI-Generated Summary