FocusedAD: Аудиоописание фильмов с акцентом на персонажей
FocusedAD: Character-centric Movie Audio Description
April 16, 2025
Авторы: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI
Аннотация
Аудиодескрипция (AD) фильмов направлена на описание визуального контента в диалоговых паузах, что особенно полезно для слепых и слабовидящих (BVI) зрителей. В отличие от обычной видеоподписи, AD требует сюжетно-ориентированного повествования с явными упоминаниями имен персонажей, что создает уникальные задачи в понимании фильмов. Для идентификации активных главных героев и фокусировки на сюжетно значимых областях мы предлагаем FocusedAD — новый фреймворк, предоставляющий персонаже-центричные аудиодескрипции фильмов. Он включает: (i) Модуль восприятия персонажей (CPM) для отслеживания областей персонажей и их связи с именами; (ii) Модуль динамических приоритетов (DPM), который внедряет контекстные подсказки из предыдущих AD и субтитров через обучаемые мягкие промпты; и (iii) Модуль фокусированной подписи (FCM), который генерирует описания, обогащенные сюжетно значимыми деталями и именами персонажей. Для преодоления ограничений в идентификации персонажей мы также представляем автоматизированный процесс создания банков запросов персонажей. FocusedAD демонстрирует передовые результаты на нескольких бенчмарках, включая сильные результаты в условиях zero-shot на наборах данных MAD-eval-Named и нашем новом наборе данных Cinepile-AD. Код и данные будут доступны по адресу https://github.com/Thorin215/FocusedAD.
English
Movie Audio Description (AD) aims to narrate visual content during
dialogue-free segments, particularly benefiting blind and visually impaired
(BVI) audiences. Compared with general video captioning, AD demands
plot-relevant narration with explicit character name references, posing unique
challenges in movie understanding.To identify active main characters and focus
on storyline-relevant regions, we propose FocusedAD, a novel framework that
delivers character-centric movie audio descriptions. It includes: (i) a
Character Perception Module(CPM) for tracking character regions and linking
them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues
from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused
Caption Module(FCM) that generates narrations enriched with plot-relevant
details and named characters. To overcome limitations in character
identification, we also introduce an automated pipeline for building character
query banks. FocusedAD achieves state-of-the-art performance on multiple
benchmarks, including strong zero-shot results on MAD-eval-Named and our newly
proposed Cinepile-AD dataset. Code and data will be released at
https://github.com/Thorin215/FocusedAD .Summary
AI-Generated Summary