ChatPaper.aiChatPaper

FocusedAD: 캐릭터 중심 영화 오디오 설명

FocusedAD: Character-centric Movie Audio Description

April 16, 2025
저자: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
cs.AI

초록

영화 오디오 설명(Audio Description, AD)은 대화가 없는 장면에서 시각적 콘텐츠를 설명하는 것을 목표로 하며, 특히 시각 장애인(BVI) 관객에게 유용합니다. 일반적인 비디오 캡셔닝과 비교할 때, AD는 플롯과 관련된 설명과 명시적인 캐릭터 이름 참조를 요구하며, 이는 영화 이해에 있어 독특한 도전 과제를 제기합니다. 주요 활성 캐릭터를 식별하고 스토리라인과 관련된 영역에 초점을 맞추기 위해, 우리는 캐릭터 중심의 영화 오디오 설명을 제공하는 새로운 프레임워크인 FocusedAD를 제안합니다. 이 프레임워크는 다음과 같은 요소를 포함합니다: (i) 캐릭터 영역을 추적하고 이름과 연결하는 캐릭터 인식 모듈(Character Perception Module, CPM); (ii) 이전 AD와 자막에서 컨텍스트 단서를 학습 가능한 소프트 프롬프트를 통해 주입하는 동적 사전 모듈(Dynamic Prior Module, DPM); (iii) 플롯 관련 세부 사항과 명명된 캐릭터가 포함된 설명을 생성하는 집중 캡션 모듈(Focused Caption Module, FCM). 캐릭터 식별의 한계를 극복하기 위해, 우리는 또한 캐릭터 쿼리 뱅크를 구축하기 위한 자동화된 파이프라인을 소개합니다. FocusedAD는 MAD-eval-Named와 우리가 새롭게 제안한 Cinepile-AD 데이터셋을 포함한 여러 벤치마크에서 최첨단 성능을 달성하며, 강력한 제로샷 결과를 보여줍니다. 코드와 데이터는 https://github.com/Thorin215/FocusedAD에서 공개될 예정입니다.
English
Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .

Summary

AI-Generated Summary

PDF93April 18, 2025