FocusedAD: Descrição de Áudio Centrada em Personagens para Filmes
FocusedAD: Character-centric Movie Audio Description
April 16, 2025
Autores: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI
Resumo
A Descrição de Áudio (AD) para filmes tem como objetivo narrar o conteúdo visual durante segmentos sem diálogo, beneficiando especialmente o público cego ou com deficiência visual (BVI). Em comparação com a legendagem geral de vídeos, a AD exige uma narração relevante para o enredo com referências explícitas aos nomes dos personagens, apresentando desafios únicos na compreensão de filmes. Para identificar os personagens principais ativos e focar em regiões relevantes para a história, propomos o FocusedAD, um novo framework que fornece descrições de áudio centradas nos personagens. Ele inclui: (i) um Módulo de Percepção de Personagens (CPM) para rastrear as regiões dos personagens e vinculá-las aos nomes; (ii) um Módulo de Prioridade Dinâmica (DPM) que injeta pistas contextuais de ADs e legendas anteriores por meio de prompts suaves aprendíveis; e (iii) um Módulo de Legendagem Focada (FCM) que gera narrações enriquecidas com detalhes relevantes para o enredo e personagens nomeados. Para superar as limitações na identificação de personagens, também introduzimos um pipeline automatizado para a construção de bancos de consulta de personagens. O FocusedAD alcança desempenho de ponta em vários benchmarks, incluindo resultados fortes de zero-shot no MAD-eval-Named e em nosso novo conjunto de dados proposto, o Cinepile-AD. O código e os dados serão disponibilizados em https://github.com/Thorin215/FocusedAD.
English
Movie Audio Description (AD) aims to narrate visual content during
dialogue-free segments, particularly benefiting blind and visually impaired
(BVI) audiences. Compared with general video captioning, AD demands
plot-relevant narration with explicit character name references, posing unique
challenges in movie understanding.To identify active main characters and focus
on storyline-relevant regions, we propose FocusedAD, a novel framework that
delivers character-centric movie audio descriptions. It includes: (i) a
Character Perception Module(CPM) for tracking character regions and linking
them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues
from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused
Caption Module(FCM) that generates narrations enriched with plot-relevant
details and named characters. To overcome limitations in character
identification, we also introduce an automated pipeline for building character
query banks. FocusedAD achieves state-of-the-art performance on multiple
benchmarks, including strong zero-shot results on MAD-eval-Named and our newly
proposed Cinepile-AD dataset. Code and data will be released at
https://github.com/Thorin215/FocusedAD .Summary
AI-Generated Summary