Cavia: Diffusione video multi-vista controllabile dalla telecamera con attenzione integrata alla vista

Abstract

Negli ultimi anni ci sono stati notevoli progressi nella generazione di immagini a video. Tuttavia, la coerenza tridimensionale e la controllabilità della telecamera dei frame generati sono rimaste irrisolte. Studi recenti hanno cercato di incorporare il controllo della telecamera nel processo di generazione, ma i loro risultati sono spesso limitati a traiettorie semplici o mancano della capacità di generare video coerenti da percorsi di telecamera multipli distinti per la stessa scena. Per affrontare queste limitazioni, presentiamo Cavia, un nuovo framework per la generazione di video multi-view controllabili dalla telecamera, in grado di convertire un'immagine di input in video spaziotemporalmente coerenti multipli. Il nostro framework estende i moduli di attenzione spaziale e temporale in moduli di attenzione integrati alla vista, migliorando sia la coerenza del punto di vista che quella temporale. Questo design flessibile consente un addestramento congiunto con diverse fonti di dati selezionate, tra cui video statici a livello di scena, video dinamici multi-view sintetici a livello di oggetto e video dinamici monocolore del mondo reale. Per quanto ne sappiamo, Cavia è il primo nel suo genere che consente all'utente di specificare con precisione il movimento della telecamera ottenendo contemporaneamente il movimento dell'oggetto. Estesi esperimenti dimostrano che Cavia supera i metodi all'avanguardia in termini di coerenza geometrica e qualità percettiva. Pagina del progetto: https://ir1d.github.io/Cavia/

English

In recent years there have been remarkable breakthroughs in image-to-video generation. However, the 3D consistency and camera controllability of generated frames have remained unsolved. Recent studies have attempted to incorporate camera control into the generation process, but their results are often limited to simple trajectories or lack the ability to generate consistent videos from multiple distinct camera paths for the same scene. To address these limitations, we introduce Cavia, a novel framework for camera-controllable, multi-view video generation, capable of converting an input image into multiple spatiotemporally consistent videos. Our framework extends the spatial and temporal attention modules into view-integrated attention modules, improving both viewpoint and temporal consistency. This flexible design allows for joint training with diverse curated data sources, including scene-level static videos, object-level synthetic multi-view dynamic videos, and real-world monocular dynamic videos. To our best knowledge, Cavia is the first of its kind that allows the user to precisely specify camera motion while obtaining object motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art methods in terms of geometric consistency and perceptual quality. Project Page: https://ir1d.github.io/Cavia/

Cavia: Diffusione video multi-vista controllabile dalla telecamera con attenzione integrata alla vista

Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention

Abstract

Summary

Support

Support