ChatPaper.aiChatPaper

FocusedAD: Descripción de Audio Centrada en Personajes para Películas

FocusedAD: Character-centric Movie Audio Description

April 16, 2025
Autores: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI

Resumen

La Descripción de Audio (AD) para películas tiene como objetivo narrar el contenido visual durante los segmentos sin diálogo, beneficiando especialmente a las audiencias ciegas o con discapacidad visual (BVI). En comparación con el subtitulado general de videos, la AD requiere una narración relevante para la trama con referencias explícitas a los nombres de los personajes, lo que plantea desafíos únicos en la comprensión de películas. Para identificar a los personajes principales activos y centrarse en las regiones relevantes para la historia, proponemos FocusedAD, un marco novedoso que ofrece descripciones de audio centradas en los personajes. Este incluye: (i) un Módulo de Percepción de Personajes (CPM) para rastrear las regiones de los personajes y vincularlas a sus nombres; (ii) un Módulo de Prioridad Dinámica (DPM) que inyecta señales contextuales de ADs previas y subtítulos mediante indicaciones suaves aprendibles; y (iii) un Módulo de Subtitulado Enfocado (FCM) que genera narraciones enriquecidas con detalles relevantes para la trama y personajes nombrados. Para superar las limitaciones en la identificación de personajes, también introducimos una pipeline automatizada para construir bancos de consultas de personajes. FocusedAD logra un rendimiento de vanguardia en múltiples benchmarks, incluyendo resultados sólidos en modo zero-shot en MAD-eval-Named y en nuestro nuevo conjunto de datos propuesto, Cinepile-AD. El código y los datos se publicarán en https://github.com/Thorin215/FocusedAD.
English
Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

Summary

AI-Generated Summary

PDF93April 18, 2025