향상된 동기화 기능을 갖춘 마스크 생성형 비디오-오디오 트랜스포머
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity
July 15, 2024
저자: Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà
cs.AI
초록
비디오-투-오디오(V2A) 생성은 시각적 비디오 특징만을 활용하여 장면과 일치하는 그럴듯한 소리를 렌더링합니다. 특히, 생성된 소리의 시작점은 시각적 동작과 일치해야 하며, 그렇지 않으면 부자연스러운 동기화 문제가 발생합니다. 최근 연구들은 정지 이미지와 비디오 특징을 기반으로 소리 생성기를 점진적으로 발전시키는 방향을 탐구해 왔는데, 이는 주로 품질과 의미적 일치에 초점을 맞추면서 동기화를 무시하거나, 일부 품질을 희생하여 동기화 개선에만 집중하는 방식이었습니다. 본 연구에서는 MaskVAT이라는 V2A 생성 모델을 제안합니다. 이 모델은 풀 밴드 고품질 일반 오디오 코덱과 시퀀스-투-시퀀스 마스크 생성 모델을 연결합니다. 이러한 조합을 통해 고품질 오디오, 의미적 일치, 그리고 시간적 동기화를 동시에 모델링할 수 있습니다. 우리의 결과는 고품질 코덱을 적절한 사전 학습된 오디오-비주얼 특징과 시퀀스-투-시퀀스 병렬 구조와 결합함으로써, 한편으로는 높은 동기화 결과를 얻을 수 있음을 보여줍니다. 동시에 비코덱 생성 오디오 모델의 최신 기술과도 경쟁력을 유지합니다. 샘플 비디오와 생성된 오디오는 https://maskvat.github.io에서 확인할 수 있습니다.
English
Video-to-audio (V2A) generation leverages visual-only video features to
render plausible sounds that match the scene. Importantly, the generated sound
onsets should match the visual actions that are aligned with them, otherwise
unnatural synchronization artifacts arise. Recent works have explored the
progression of conditioning sound generators on still images and then video
features, focusing on quality and semantic matching while ignoring
synchronization, or by sacrificing some amount of quality to focus on improving
synchronization only. In this work, we propose a V2A generative model, named
MaskVAT, that interconnects a full-band high-quality general audio codec with a
sequence-to-sequence masked generative model. This combination allows modeling
both high audio quality, semantic matching, and temporal synchronicity at the
same time. Our results show that, by combining a high-quality codec with the
proper pre-trained audio-visual features and a sequence-to-sequence parallel
structure, we are able to yield highly synchronized results on one hand, whilst
being competitive with the state of the art of non-codec generative audio
models. Sample videos and generated audios are available at
https://maskvat.github.io .Summary
AI-Generated Summary