FocusedAD : Description audio centrée sur les personnages pour les films

Résumé

La Description Audio (DA) de films vise à narrer le contenu visuel pendant les segments sans dialogue, bénéficiant particulièrement aux publics aveugles et malvoyants (AMV). Par rapport au sous-titrage vidéo général, la DA exige une narration pertinente à l'intrigue avec des références explicites aux noms des personnages, posant des défis uniques dans la compréhension des films. Pour identifier les personnages principaux actifs et se concentrer sur les régions pertinentes à l'histoire, nous proposons FocusedAD, un nouveau cadre qui fournit des descriptions audio de films centrées sur les personnages. Il comprend : (i) un Module de Perception des Personnages (CPM) pour suivre les régions des personnages et les relier à leurs noms ; (ii) un Module de Priorité Dynamique (DPM) qui injecte des indices contextuels à partir des DA et sous-titres précédents via des invites douces apprenables ; et (iii) un Module de Légende Ciblée (FCM) qui génère des narrations enrichies de détails pertinents à l'intrigue et de personnages nommés. Pour surmonter les limites de l'identification des personnages, nous introduisons également un pipeline automatisé pour construire des banques de requêtes de personnages. FocusedAD atteint des performances de pointe sur plusieurs benchmarks, y compris des résultats solides en zero-shot sur MAD-eval-Named et notre nouveau jeu de données Cinepile-AD. Le code et les données seront publiés sur https://github.com/Thorin215/FocusedAD.

English

Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .