Cavia: Camera-bestuurbare Multi-view Videoverspreiding met Geïntegreerde Aandacht per Weergave
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
October 14, 2024
Auteurs: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI
Samenvatting
In de afgelopen jaren zijn er opmerkelijke doorbraken geweest op het gebied van beeld-naar-video generatie. Echter, de 3D consistentie en camera bestuurbaarheid van gegenereerde frames zijn onopgelost gebleven. Recente studies hebben geprobeerd camera besturing in het generatieproces op te nemen, maar hun resultaten zijn vaak beperkt tot eenvoudige trajecten of missen de mogelijkheid om consistente video's te genereren vanuit meerdere verschillende camerapaden voor dezelfde scène. Om deze beperkingen aan te pakken, introduceren we Cavia, een nieuw raamwerk voor camera-bestuurbare, multi-view video generatie, dat in staat is om een invoerbeeld om te zetten in meerdere ruimtelijk-temporeel consistente video's. Ons raamwerk breidt de ruimtelijke en temporele aandachtsmodules uit naar view-geïntegreerde aandachtsmodules, waardoor zowel het gezichtspunt als de temporele consistentie verbeteren. Dit flexibele ontwerp maakt gezamenlijke training mogelijk met diverse samengestelde gegevensbronnen, waaronder statische video's op scène-niveau, synthetische multi-view dynamische video's op objectniveau, en monoculaire dynamische video's uit de echte wereld. Voor zover wij weten, is Cavia de eerste in zijn soort die de gebruiker in staat stelt om camera beweging nauwkeurig te specificeren terwijl objectbeweging wordt verkregen. Uitgebreide experimenten tonen aan dat Cavia state-of-the-art methoden overtreft op het gebied van geometrische consistentie en waargenomen kwaliteit. Projectpagina: https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video
generation. However, the 3D consistency and camera controllability of generated
frames have remained unsolved. Recent studies have attempted to incorporate
camera control into the generation process, but their results are often limited
to simple trajectories or lack the ability to generate consistent videos from
multiple distinct camera paths for the same scene. To address these
limitations, we introduce Cavia, a novel framework for camera-controllable,
multi-view video generation, capable of converting an input image into multiple
spatiotemporally consistent videos. Our framework extends the spatial and
temporal attention modules into view-integrated attention modules, improving
both viewpoint and temporal consistency. This flexible design allows for joint
training with diverse curated data sources, including scene-level static
videos, object-level synthetic multi-view dynamic videos, and real-world
monocular dynamic videos. To our best knowledge, Cavia is the first of its kind
that allows the user to precisely specify camera motion while obtaining object
motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art
methods in terms of geometric consistency and perceptual quality. Project Page:
https://ir1d.github.io/Cavia/Summary
AI-Generated Summary