FocusedAD: Audio Descrizione Centrata sui Personaggi per Film
FocusedAD: Character-centric Movie Audio Description
April 16, 2025
Autori: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI
Abstract
L'Audio Descrizione (AD) cinematografica mira a narrare il contenuto visivo durante i segmenti privi di dialoghi, beneficiando in particolare il pubblico non vedente e ipovedente (BVI). Rispetto alla sottotitolazione generale dei video, l'AD richiede una narrazione pertinente alla trama con riferimenti espliciti ai nomi dei personaggi, ponendo sfide uniche nella comprensione del film. Per identificare i personaggi principali attivi e concentrarsi sulle regioni rilevanti per la trama, proponiamo FocusedAD, un nuovo framework che fornisce audio descrizioni cinematografiche centrate sui personaggi. Esso include: (i) un Modulo di Percezione dei Personaggi (CPM) per tracciare le regioni dei personaggi e collegarle ai nomi; (ii) un Modulo di Priorità Dinamica (DPM) che inietta indizi contestuali dalle AD precedenti e dai sottotitoli tramite prompt soft apprendibili; e (iii) un Modulo di Sottotitolazione Focalizzata (FCM) che genera narrazioni arricchite con dettagli pertinenti alla trama e personaggi nominati. Per superare le limitazioni nell'identificazione dei personaggi, introduciamo anche una pipeline automatizzata per la costruzione di banche di query sui personaggi. FocusedAD raggiunge prestazioni all'avanguardia su molteplici benchmark, inclusi risultati zero-shot solidi su MAD-eval-Named e il nostro nuovo dataset proposto, Cinepile-AD. Codice e dati saranno rilasciati su https://github.com/Thorin215/FocusedAD.
English
Movie Audio Description (AD) aims to narrate visual content during
dialogue-free segments, particularly benefiting blind and visually impaired
(BVI) audiences. Compared with general video captioning, AD demands
plot-relevant narration with explicit character name references, posing unique
challenges in movie understanding.To identify active main characters and focus
on storyline-relevant regions, we propose FocusedAD, a novel framework that
delivers character-centric movie audio descriptions. It includes: (i) a
Character Perception Module(CPM) for tracking character regions and linking
them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues
from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused
Caption Module(FCM) that generates narrations enriched with plot-relevant
details and named characters. To overcome limitations in character
identification, we also introduce an automated pipeline for building character
query banks. FocusedAD achieves state-of-the-art performance on multiple
benchmarks, including strong zero-shot results on MAD-eval-Named and our newly
proposed Cinepile-AD dataset. Code and data will be released at
https://github.com/Thorin215/FocusedAD .Summary
AI-Generated Summary