ChatPaper.aiChatPaper

영화 시청을 통해 오디오 하이라이트 학습하기

Learning to Highlight Audio by Watching Movies

May 17, 2025
저자: Chao Huang, Ruohan Gao, J. M. F. Tsang, Jan Kurcius, Cagdas Bilen, Chenliang Xu, Anurag Kumar, Sanjeel Parekh
cs.AI

초록

최근 몇 년간 비디오 콘텐츠 제작과 소비가 크게 증가했습니다. 매력적인 콘텐츠를 제작하려면 시각적 요소와 음향 요소를 신중하게 구성해야 합니다. 최적의 시점 선택이나 후편집과 같은 기법을 통한 시각적 큐 구성은 미디어 제작의 핵심이었지만, 그 자연스러운 상대편인 음향은 동등한 발전을 이루지 못했습니다. 이로 인해 시각적 중요성과 음향적 중요성 사이에 불일치가 발생하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 새로운 작업을 소개합니다: 시각적으로 유도된 음향 강조(visually-guided acoustic highlighting). 이 작업은 동반 비디오의 지도에 따라 음향을 변환하여 적절한 강조 효과를 제공함으로써 더 조화로운 오디오-비주얼 경험을 창출하는 것을 목표로 합니다. 우리는 이 작업을 해결하기 위해 유연한 트랜스포머 기반의 멀티모달 프레임워크를 제안합니다. 우리의 모델을 훈련시키기 위해, 우리는 또한 새로운 데이터셋인 muddy mix 데이터셋을 소개합니다. 이 데이터셋은 영화에서 발견되는 세심한 음향과 비디오 제작을 활용하여 일종의 무료 감독을 제공합니다. 우리는 분리, 조정, 리믹스라는 세 단계 과정을 통해 실제 시나리오를 모방한 잘못 혼합된 오디오를 시뮬레이션하는 가짜 데이터 생성 프로세스를 개발했습니다. 우리의 접근 방식은 양적 및 주관적 평가 모두에서 여러 베이스라인을 일관되게 능가합니다. 또한, 우리는 다양한 유형의 컨텍스트 지도와 데이터셋의 난이도 수준의 영향을 체계적으로 연구합니다. 우리의 프로젝트 페이지는 여기에서 확인할 수 있습니다: https://wikichao.github.io/VisAH/.
English
Recent years have seen a significant increase in video content creation and consumption. Crafting engaging content requires the careful curation of both visual and audio elements. While visual cue curation, through techniques like optimal viewpoint selection or post-editing, has been central to media production, its natural counterpart, audio, has not undergone equivalent advancements. This often results in a disconnect between visual and acoustic saliency. To bridge this gap, we introduce a novel task: visually-guided acoustic highlighting, which aims to transform audio to deliver appropriate highlighting effects guided by the accompanying video, ultimately creating a more harmonious audio-visual experience. We propose a flexible, transformer-based multimodal framework to solve this task. To train our model, we also introduce a new dataset -- the muddy mix dataset, leveraging the meticulous audio and video crafting found in movies, which provides a form of free supervision. We develop a pseudo-data generation process to simulate poorly mixed audio, mimicking real-world scenarios through a three-step process -- separation, adjustment, and remixing. Our approach consistently outperforms several baselines in both quantitative and subjective evaluation. We also systematically study the impact of different types of contextual guidance and difficulty levels of the dataset. Our project page is here: https://wikichao.github.io/VisAH/.

Summary

AI-Generated Summary

PDF22May 21, 2025