ChatPaper.aiChatPaper

FocusedAD: Audio Descrizione Centrata sui Personaggi per Film

FocusedAD: Character-centric Movie Audio Description

April 16, 2025
Autori: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI

Abstract

L'Audio Descrizione (AD) cinematografica mira a narrare il contenuto visivo durante i segmenti privi di dialoghi, beneficiando in particolare il pubblico non vedente e ipovedente (BVI). Rispetto alla sottotitolazione generale dei video, l'AD richiede una narrazione pertinente alla trama con riferimenti espliciti ai nomi dei personaggi, ponendo sfide uniche nella comprensione del film. Per identificare i personaggi principali attivi e concentrarsi sulle regioni rilevanti per la trama, proponiamo FocusedAD, un nuovo framework che fornisce audio descrizioni cinematografiche centrate sui personaggi. Esso include: (i) un Modulo di Percezione dei Personaggi (CPM) per tracciare le regioni dei personaggi e collegarle ai nomi; (ii) un Modulo di Priorità Dinamica (DPM) che inietta indizi contestuali dalle AD precedenti e dai sottotitoli tramite prompt soft apprendibili; e (iii) un Modulo di Sottotitolazione Focalizzata (FCM) che genera narrazioni arricchite con dettagli pertinenti alla trama e personaggi nominati. Per superare le limitazioni nell'identificazione dei personaggi, introduciamo anche una pipeline automatizzata per la costruzione di banche di query sui personaggi. FocusedAD raggiunge prestazioni all'avanguardia su molteplici benchmark, inclusi risultati zero-shot solidi su MAD-eval-Named e il nostro nuovo dataset proposto, Cinepile-AD. Codice e dati saranno rilasciati su https://github.com/Thorin215/FocusedAD.
English
Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

Summary

AI-Generated Summary

PDF93April 18, 2025