Cavia: Kamera-steuerbare Multi-View-Videoverbreitung mit Blick-integrierter Aufmerksamkeit

papers.abstract

In den letzten Jahren gab es bemerkenswerte Durchbrüche bei der Generierung von Bild-zu-Video. Allerdings sind die 3D-Konsistenz und die Kamerasteuerbarkeit der generierten Frames ungelöst geblieben. In jüngsten Studien wurde versucht, die Kamerasteuerung in den Generierungsprozess zu integrieren, aber die Ergebnisse sind oft auf einfache Trajektorien beschränkt oder es fehlt die Fähigkeit, konsistente Videos aus mehreren verschiedenen Kamerapfaden für dieselbe Szene zu generieren. Um diese Einschränkungen zu adressieren, stellen wir Cavia vor, ein neuartiges Framework für kamerasteuerbare, Multi-View-Video-Generierung, das in der Lage ist, ein Eingabebild in mehrere räumlich-zeitlich konsistente Videos umzuwandeln. Unser Framework erweitert die räumlichen und zeitlichen Aufmerksamkeitsmodule zu view-integrierten Aufmerksamkeitsmodulen, die sowohl die Blickwinkel- als auch die zeitliche Konsistenz verbessern. Dieses flexible Design ermöglicht ein gemeinsames Training mit vielfältigen kuratierten Datenquellen, einschließlich statischer Videos auf Szenenebene, synthetischer dynamischer Multi-View-Videos auf Objektebene und monokularer dynamischer Videos aus der realen Welt. Unseres Wissens nach ist Cavia die erste ihrer Art, die es dem Benutzer ermöglicht, die Kamerabewegung präzise zu spezifizieren und gleichzeitig die Objektbewegung zu erhalten. Umfangreiche Experimente zeigen, dass Cavia in Bezug auf geometrische Konsistenz und perzeptuelle Qualität die Methoden auf dem neuesten Stand der Technik übertrifft. Projektseite: https://ir1d.github.io/Cavia/

English

In recent years there have been remarkable breakthroughs in image-to-video generation. However, the 3D consistency and camera controllability of generated frames have remained unsolved. Recent studies have attempted to incorporate camera control into the generation process, but their results are often limited to simple trajectories or lack the ability to generate consistent videos from multiple distinct camera paths for the same scene. To address these limitations, we introduce Cavia, a novel framework for camera-controllable, multi-view video generation, capable of converting an input image into multiple spatiotemporally consistent videos. Our framework extends the spatial and temporal attention modules into view-integrated attention modules, improving both viewpoint and temporal consistency. This flexible design allows for joint training with diverse curated data sources, including scene-level static videos, object-level synthetic multi-view dynamic videos, and real-world monocular dynamic videos. To our best knowledge, Cavia is the first of its kind that allows the user to precisely specify camera motion while obtaining object motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art methods in terms of geometric consistency and perceptual quality. Project Page: https://ir1d.github.io/Cavia/

Cavia: Kamera-steuerbare Multi-View-Videoverbreitung mit Blick-integrierter Aufmerksamkeit

Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention

papers.abstract

Support