Cavia: Kamera-steuerbare Multi-View-Videoverbreitung mit Blick-integrierter Aufmerksamkeit
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
October 14, 2024
Autoren: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI
Zusammenfassung
In den letzten Jahren gab es bemerkenswerte Durchbrüche bei der Generierung von Bild-zu-Video. Allerdings sind die 3D-Konsistenz und die Kamerasteuerbarkeit der generierten Frames ungelöst geblieben. In jüngsten Studien wurde versucht, die Kamerasteuerung in den Generierungsprozess zu integrieren, aber die Ergebnisse sind oft auf einfache Trajektorien beschränkt oder es fehlt die Fähigkeit, konsistente Videos aus mehreren verschiedenen Kamerapfaden für dieselbe Szene zu generieren. Um diese Einschränkungen zu adressieren, stellen wir Cavia vor, ein neuartiges Framework für kamerasteuerbare, Multi-View-Video-Generierung, das in der Lage ist, ein Eingabebild in mehrere räumlich-zeitlich konsistente Videos umzuwandeln. Unser Framework erweitert die räumlichen und zeitlichen Aufmerksamkeitsmodule zu view-integrierten Aufmerksamkeitsmodulen, die sowohl die Blickwinkel- als auch die zeitliche Konsistenz verbessern. Dieses flexible Design ermöglicht ein gemeinsames Training mit vielfältigen kuratierten Datenquellen, einschließlich statischer Videos auf Szenenebene, synthetischer dynamischer Multi-View-Videos auf Objektebene und monokularer dynamischer Videos aus der realen Welt. Unseres Wissens nach ist Cavia die erste ihrer Art, die es dem Benutzer ermöglicht, die Kamerabewegung präzise zu spezifizieren und gleichzeitig die Objektbewegung zu erhalten. Umfangreiche Experimente zeigen, dass Cavia in Bezug auf geometrische Konsistenz und perzeptuelle Qualität die Methoden auf dem neuesten Stand der Technik übertrifft. Projektseite: https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video
generation. However, the 3D consistency and camera controllability of generated
frames have remained unsolved. Recent studies have attempted to incorporate
camera control into the generation process, but their results are often limited
to simple trajectories or lack the ability to generate consistent videos from
multiple distinct camera paths for the same scene. To address these
limitations, we introduce Cavia, a novel framework for camera-controllable,
multi-view video generation, capable of converting an input image into multiple
spatiotemporally consistent videos. Our framework extends the spatial and
temporal attention modules into view-integrated attention modules, improving
both viewpoint and temporal consistency. This flexible design allows for joint
training with diverse curated data sources, including scene-level static
videos, object-level synthetic multi-view dynamic videos, and real-world
monocular dynamic videos. To our best knowledge, Cavia is the first of its kind
that allows the user to precisely specify camera motion while obtaining object
motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art
methods in terms of geometric consistency and perceptual quality. Project Page:
https://ir1d.github.io/Cavia/Summary
AI-Generated Summary