ChatPaper.aiChatPaper

Video-Foley: Generazione Audio in Due Fasi da Video tramite Condizionamento Temporale degli Eventi per il Suono Foley

Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

August 21, 2024
Autori: Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam
cs.AI

Abstract

La sintesi del suono Foley è fondamentale per la produzione multimediale, migliorando l'esperienza dell'utente sincronizzando audio e video sia temporalmente che semanticamente. Studi recenti sull'automatizzazione di questo processo laborioso attraverso la generazione audio da video affrontano sfide significative. I sistemi privi di caratteristiche temporali esplicite soffrono di scarsa controllabilità e allineamento, mentre i modelli basati su timestamp richiedono annotazioni umane costose e soggettive. Proponiamo Video-Foley, un sistema audio da video che utilizza il valore quadratico medio (RMS) come condizione temporale degli eventi con prompt timbrici semantici (audio o testo). Il RMS, una caratteristica dell'inviluppo di intensità a livello di fotogramma strettamente correlata alla semantica audio, garantisce un'elevata controllabilità e sincronizzazione. Il framework di apprendimento auto-supervisionato senza annotazioni è composto da due fasi, Video2RMS e RMS2Sound, che incorporano idee innovative tra cui la discretizzazione del RMS e RMS-ControlNet con un modello pre-addestrato di testo-audio. La nostra valutazione approfondita dimostra che Video-Foley raggiunge prestazioni all'avanguardia nell'allineamento audio-visivo e nella controllabilità del timing, dell'intensità, del timbro e delle sfumature del suono. Codice, pesi del modello e dimostrazioni sono disponibili sul sito web allegato. (https://jnwnlee.github.io/video-foley-demo)
English
Foley sound synthesis is crucial for multimedia production, enhancing user experience by synchronizing audio and video both temporally and semantically. Recent studies on automating this labor-intensive process through video-to-sound generation face significant challenges. Systems lacking explicit temporal features suffer from poor controllability and alignment, while timestamp-based models require costly and subjective human annotation. We propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a temporal event condition with semantic timbre prompts (audio or text). RMS, a frame-level intensity envelope feature closely related to audio semantics, ensures high controllability and synchronization. The annotation-free self-supervised learning framework consists of two stages, Video2RMS and RMS2Sound, incorporating novel ideas including RMS discretization and RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation shows that Video-Foley achieves state-of-the-art performance in audio-visual alignment and controllability for sound timing, intensity, timbre, and nuance. Code, model weights, and demonstrations are available on the accompanying website. (https://jnwnlee.github.io/video-foley-demo)
PDF82November 16, 2024