Cavia : Diffusion vidéo multi-vues contrôlée par caméra avec attention intégrée à la vue
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
October 14, 2024
Auteurs: Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
cs.AI
Résumé
Ces dernières années, il y a eu des avancées remarquables dans la génération d'images vers vidéos. Cependant, la cohérence 3D et la contrôlabilité de la caméra des images générées sont restées non résolues. Des études récentes ont tenté d'incorporer le contrôle de la caméra dans le processus de génération, mais leurs résultats sont souvent limités à des trajectoires simples ou manquent de la capacité de générer des vidéos cohérentes à partir de plusieurs chemins de caméra distincts pour la même scène. Pour remédier à ces limitations, nous présentons Cavia, un nouveau cadre pour la génération de vidéos multi-vues contrôlables par caméra, capable de convertir une image d'entrée en plusieurs vidéos spatiotemporellement cohérentes. Notre cadre étend les modules d'attention spatiale et temporelle en modules d'attention intégrés à la vue, améliorant à la fois la cohérence du point de vue et temporelle. Cette conception flexible permet un entraînement conjoint avec diverses sources de données sélectionnées, y compris des vidéos statiques au niveau de la scène, des vidéos dynamiques multi-vues synthétiques au niveau de l'objet et des vidéos dynamiques monoclaires du monde réel. À notre connaissance, Cavia est le premier de son genre à permettre à l'utilisateur de spécifier précisément le mouvement de la caméra tout en obtenant le mouvement de l'objet. Des expériences approfondies démontrent que Cavia dépasse les méthodes de pointe en termes de cohérence géométrique et de qualité perceptuelle. Page du projet : https://ir1d.github.io/Cavia/
English
In recent years there have been remarkable breakthroughs in image-to-video
generation. However, the 3D consistency and camera controllability of generated
frames have remained unsolved. Recent studies have attempted to incorporate
camera control into the generation process, but their results are often limited
to simple trajectories or lack the ability to generate consistent videos from
multiple distinct camera paths for the same scene. To address these
limitations, we introduce Cavia, a novel framework for camera-controllable,
multi-view video generation, capable of converting an input image into multiple
spatiotemporally consistent videos. Our framework extends the spatial and
temporal attention modules into view-integrated attention modules, improving
both viewpoint and temporal consistency. This flexible design allows for joint
training with diverse curated data sources, including scene-level static
videos, object-level synthetic multi-view dynamic videos, and real-world
monocular dynamic videos. To our best knowledge, Cavia is the first of its kind
that allows the user to precisely specify camera motion while obtaining object
motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art
methods in terms of geometric consistency and perceptual quality. Project Page:
https://ir1d.github.io/Cavia/Summary
AI-Generated Summary