FoleyCrafter: Bringen Sie stumme Videos mit lebensechten und synchronisierten Geräuschen zum Leben.

papers.abstract

Wir untersuchen Neural Foley, die automatische Generierung hochwertiger Soundeffekte, die mit Videos synchronisiert werden, um ein immersives audiovisuelles Erlebnis zu ermöglichen. Trotz des breiten Anwendungsspektrums stoßen bestehende Ansätze an Grenzen, wenn es darum geht, hochwertige und videoausgerichtete (d. h. semantisch relevante und zeitlich synchronisierte) Klänge gleichzeitig zu synthetisieren. Um diese Einschränkungen zu überwinden, schlagen wir FoleyCrafter vor, ein neuartiges Framework, das ein vortrainiertes Text-zu-Audio-Modell nutzt, um eine hochwertige Audioerzeugung sicherzustellen. FoleyCrafter besteht aus zwei Schlüsselkomponenten: dem semantischen Adapter für semantische Ausrichtung und dem zeitlichen Controller für präzise Audio-Video-Synchronisation. Der semantische Adapter verwendet parallele Kreuz-Aufmerksamkeitsschichten, um die Audioerzeugung an Videofunktionen zu konditionieren und realistische Soundeffekte zu erzeugen, die semantisch relevant für den visuellen Inhalt sind. Der zeitliche Controller integriert einen Anschlagdetektor und einen zeitstempelbasierten Adapter, um eine präzise Audio-Video-Ausrichtung zu erreichen. Ein bemerkenswerter Vorteil von FoleyCrafter ist seine Kompatibilität mit Texteingaben, die die Verwendung von Textbeschreibungen ermöglicht, um eine steuerbare und vielfältige Video-zu-Audio-Erzeugung entsprechend den Benutzerabsichten zu erreichen. Wir führen umfangreiche quantitative und qualitative Experimente an Standard-Benchmarks durch, um die Wirksamkeit von FoleyCrafter zu überprüfen. Modelle und Codes sind unter https://github.com/open-mmlab/FoleyCrafter verfügbar.

English

We study Neural Foley, the automatic generation of high-quality sound effects synchronizing with videos, enabling an immersive audio-visual experience. Despite its wide range of applications, existing approaches encounter limitations when it comes to simultaneously synthesizing high-quality and video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To overcome these limitations, we propose FoleyCrafter, a novel framework that leverages a pre-trained text-to-audio model to ensure high-quality audio generation. FoleyCrafter comprises two key components: the semantic adapter for semantic alignment and the temporal controller for precise audio-video synchronization. The semantic adapter utilizes parallel cross-attention layers to condition audio generation on video features, producing realistic sound effects that are semantically relevant to the visual content. Meanwhile, the temporal controller incorporates an onset detector and a timestampbased adapter to achieve precise audio-video alignment. One notable advantage of FoleyCrafter is its compatibility with text prompts, enabling the use of text descriptions to achieve controllable and diverse video-to-audio generation according to user intents. We conduct extensive quantitative and qualitative experiments on standard benchmarks to verify the effectiveness of FoleyCrafter. Models and codes are available at https://github.com/open-mmlab/FoleyCrafter.

FoleyCrafter: Bringen Sie stumme Videos mit lebensechten und synchronisierten Geräuschen zum Leben.

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

papers.abstract

Support