Cavia: Diffusione video multi-vista controllabile dalla telecamera con attenzione integrata alla vista
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
October 14, 2024
Autori: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI
Abstract
Negli ultimi anni ci sono stati notevoli progressi nella generazione di immagini a video. Tuttavia, la coerenza tridimensionale e la controllabilità della telecamera dei frame generati sono rimaste irrisolte. Studi recenti hanno cercato di incorporare il controllo della telecamera nel processo di generazione, ma i loro risultati sono spesso limitati a traiettorie semplici o mancano della capacità di generare video coerenti da percorsi di telecamera multipli distinti per la stessa scena. Per affrontare queste limitazioni, presentiamo Cavia, un nuovo framework per la generazione di video multi-view controllabili dalla telecamera, in grado di convertire un'immagine di input in video spaziotemporalmente coerenti multipli. Il nostro framework estende i moduli di attenzione spaziale e temporale in moduli di attenzione integrati alla vista, migliorando sia la coerenza del punto di vista che quella temporale. Questo design flessibile consente un addestramento congiunto con diverse fonti di dati selezionate, tra cui video statici a livello di scena, video dinamici multi-view sintetici a livello di oggetto e video dinamici monocolore del mondo reale. Per quanto ne sappiamo, Cavia è il primo nel suo genere che consente all'utente di specificare con precisione il movimento della telecamera ottenendo contemporaneamente il movimento dell'oggetto. Estesi esperimenti dimostrano che Cavia supera i metodi all'avanguardia in termini di coerenza geometrica e qualità percettiva. Pagina del progetto: https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video
generation. However, the 3D consistency and camera controllability of generated
frames have remained unsolved. Recent studies have attempted to incorporate
camera control into the generation process, but their results are often limited
to simple trajectories or lack the ability to generate consistent videos from
multiple distinct camera paths for the same scene. To address these
limitations, we introduce Cavia, a novel framework for camera-controllable,
multi-view video generation, capable of converting an input image into multiple
spatiotemporally consistent videos. Our framework extends the spatial and
temporal attention modules into view-integrated attention modules, improving
both viewpoint and temporal consistency. This flexible design allows for joint
training with diverse curated data sources, including scene-level static
videos, object-level synthetic multi-view dynamic videos, and real-world
monocular dynamic videos. To our best knowledge, Cavia is the first of its kind
that allows the user to precisely specify camera motion while obtaining object
motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art
methods in terms of geometric consistency and perceptual quality. Project Page:
https://ir1d.github.io/Cavia/Summary
AI-Generated Summary