FocusedAD: Descrição de Áudio Centrada em Personagens para Filmes

Resumo

A Descrição de Áudio (AD) para filmes tem como objetivo narrar o conteúdo visual durante segmentos sem diálogo, beneficiando especialmente o público cego ou com deficiência visual (BVI). Em comparação com a legendagem geral de vídeos, a AD exige uma narração relevante para o enredo com referências explícitas aos nomes dos personagens, apresentando desafios únicos na compreensão de filmes. Para identificar os personagens principais ativos e focar em regiões relevantes para a história, propomos o FocusedAD, um novo framework que fornece descrições de áudio centradas nos personagens. Ele inclui: (i) um Módulo de Percepção de Personagens (CPM) para rastrear as regiões dos personagens e vinculá-las aos nomes; (ii) um Módulo de Prioridade Dinâmica (DPM) que injeta pistas contextuais de ADs e legendas anteriores por meio de prompts suaves aprendíveis; e (iii) um Módulo de Legendagem Focada (FCM) que gera narrações enriquecidas com detalhes relevantes para o enredo e personagens nomeados. Para superar as limitações na identificação de personagens, também introduzimos um pipeline automatizado para a construção de bancos de consulta de personagens. O FocusedAD alcança desempenho de ponta em vários benchmarks, incluindo resultados fortes de zero-shot no MAD-eval-Named e em nosso novo conjunto de dados proposto, o Cinepile-AD. O código e os dados serão disponibilizados em https://github.com/Thorin215/FocusedAD.

English

Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

FocusedAD: Descrição de Áudio Centrada em Personagens para Filmes

FocusedAD: Character-centric Movie Audio Description

Resumo

Support