SpA2V: Nutzung räumlicher auditiver Hinweise für die audio-gesteuerte, räumlich bewusste Videogenerierung

papers.abstract

Die audio-gesteuerte Videogenerierung zielt darauf ab, realistische Videos zu synthetisieren, die mit den Eingabe-Audioaufnahmen übereinstimmen, ähnlich der menschlichen Fähigkeit, Szenen aus auditiven Eingaben zu visualisieren. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich auf die Erforschung semantischer Informationen, wie die Klassen der im Audio vorhandenen Klangquellen, was ihre Fähigkeit einschränkt, Videos mit präzisem Inhalt und räumlicher Komposition zu erzeugen. Im Gegensatz dazu können wir Menschen nicht nur natürlich die semantischen Kategorien der Klangquellen identifizieren, sondern auch deren tief verankerte räumliche Attribute, wie Standorte und Bewegungsrichtungen, bestimmen. Diese nützlichen Informationen können durch die Berücksichtigung spezifischer räumlicher Indikatoren, die sich aus den inhärenten physikalischen Eigenschaften des Schalls wie Lautstärke oder Frequenz ableiten, erschlossen werden. Da frühere Methoden diesen Faktor weitgehend ignorieren, präsentieren wir SpA2V, das erste Framework, das explizit diese räumlichen auditiven Hinweise aus Audios nutzt, um Videos mit hoher semantischer und räumlicher Übereinstimmung zu generieren. SpA2V zerlegt den Generierungsprozess in zwei Phasen: 1) Audio-gesteuerte Videoplanung: Wir passen sorgfältig ein modernes MLLM für eine neuartige Aufgabe an, um räumliche und semantische Hinweise aus dem Eingabe-Audio zu nutzen und Video-Szenen-Layouts (VSLs) zu erstellen. Dies dient als Zwischenrepräsentation, um die Lücke zwischen den Audio- und Video-Modalitäten zu überbrücken. 2) Layout-basierte Videogenerierung: Wir entwickeln einen effizienten und effektiven Ansatz, um VSLs nahtlos als bedingte Anleitung in vortrainierte Diffusionsmodelle zu integrieren, was eine VSL-basierte Videogenerierung ohne zusätzliches Training ermöglicht. Umfangreiche Experimente zeigen, dass SpA2V bei der Erzeugung realistischer Videos mit semantischer und räumlicher Ausrichtung zu den Eingabe-Audios hervorragt.

English

Audio-driven video generation aims to synthesize realistic videos that align with input audio recordings, akin to the human ability to visualize scenes from auditory input. However, existing approaches predominantly focus on exploring semantic information, such as the classes of sounding sources present in the audio, limiting their ability to generate videos with accurate content and spatial composition. In contrast, we humans can not only naturally identify the semantic categories of sounding sources but also determine their deeply encoded spatial attributes, including locations and movement directions. This useful information can be elucidated by considering specific spatial indicators derived from the inherent physical properties of sound, such as loudness or frequency. As prior methods largely ignore this factor, we present SpA2V, the first framework explicitly exploits these spatial auditory cues from audios to generate videos with high semantic and spatial correspondence. SpA2V decomposes the generation process into two stages: 1) Audio-guided Video Planning: We meticulously adapt a state-of-the-art MLLM for a novel task of harnessing spatial and semantic cues from input audio to construct Video Scene Layouts (VSLs). This serves as an intermediate representation to bridge the gap between the audio and video modalities. 2) Layout-grounded Video Generation: We develop an efficient and effective approach to seamlessly integrate VSLs as conditional guidance into pre-trained diffusion models, enabling VSL-grounded video generation in a training-free manner. Extensive experiments demonstrate that SpA2V excels in generating realistic videos with semantic and spatial alignment to the input audios.

SpA2V: Nutzung räumlicher auditiver Hinweise für die audio-gesteuerte, räumlich bewusste Videogenerierung

SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation

papers.abstract

Support