ChatPaper.aiChatPaper

FoleyCrafter: Breng stille video's tot leven met levensechte en gesynchroniseerde geluiden

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

July 1, 2024
Auteurs: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI

Samenvatting

We bestuderen Neural Foley, de automatische generatie van hoogwaardige geluidseffecten die gesynchroniseerd zijn met video's, waardoor een meeslepende audiovisuele ervaring mogelijk wordt. Ondanks de brede toepassingsmogelijkheden, kampen bestaande benaderingen met beperkingen wanneer het gaat om het gelijktijdig synthetiseren van hoogwaardige en video-uitgelijnde (d.w.z. semantisch relevante en temporeel gesynchroniseerde) geluiden. Om deze beperkingen te overwinnen, stellen we FoleyCrafter voor, een nieuw framework dat gebruikmaakt van een vooraf getraind tekst-naar-audio-model om hoogwaardige audiogeneratie te garanderen. FoleyCrafter bestaat uit twee belangrijke componenten: de semantische adapter voor semantische uitlijning en de temporele controller voor precieze audio-video-synchronisatie. De semantische adapter maakt gebruik van parallelle cross-attention-lagen om audiogeneratie te conditioneren op videokenmerken, waardoor realistische geluidseffecten worden geproduceerd die semantisch relevant zijn voor de visuele inhoud. Tegelijkertijd incorporeert de temporele controller een onset-detector en een timestamp-gebaseerde adapter om precieze audio-video-uitlijning te bereiken. Een opmerkelijk voordeel van FoleyCrafter is de compatibiliteit met tekstprompts, waardoor het gebruik van tekstbeschrijvingen mogelijk wordt om controleerbare en diverse video-naar-audio-generatie te bereiken volgens de intenties van de gebruiker. We voeren uitgebreide kwantitatieve en kwalitatieve experimenten uit op standaardbenchmarks om de effectiviteit van FoleyCrafter te verifiëren. Modellen en code zijn beschikbaar op https://github.com/open-mmlab/FoleyCrafter.
English
We study Neural Foley, the automatic generation of high-quality sound effects synchronizing with videos, enabling an immersive audio-visual experience. Despite its wide range of applications, existing approaches encounter limitations when it comes to simultaneously synthesizing high-quality and video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To overcome these limitations, we propose FoleyCrafter, a novel framework that leverages a pre-trained text-to-audio model to ensure high-quality audio generation. FoleyCrafter comprises two key components: the semantic adapter for semantic alignment and the temporal controller for precise audio-video synchronization. The semantic adapter utilizes parallel cross-attention layers to condition audio generation on video features, producing realistic sound effects that are semantically relevant to the visual content. Meanwhile, the temporal controller incorporates an onset detector and a timestampbased adapter to achieve precise audio-video alignment. One notable advantage of FoleyCrafter is its compatibility with text prompts, enabling the use of text descriptions to achieve controllable and diverse video-to-audio generation according to user intents. We conduct extensive quantitative and qualitative experiments on standard benchmarks to verify the effectiveness of FoleyCrafter. Models and codes are available at https://github.com/open-mmlab/FoleyCrafter.
PDF152November 28, 2024