ChatPaper.aiChatPaper

CamViG : Génération d'images vers vidéo consciente de la caméra avec des transformateurs multimodaux

CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

May 21, 2024
Auteurs: Andrew Marmon, Grant Schindler, José Lezama, Dan Kondratyuk, Bryan Seybold, Irfan Essa
cs.AI

Résumé

Nous étendons les transformateurs multimodaux pour inclure le mouvement de caméra 3D comme signal de conditionnement pour la tâche de génération vidéo. Les modèles génératifs de vidéo deviennent de plus en plus puissants, ce qui concentre les efforts de recherche sur les méthodes de contrôle de la sortie de ces modèles. Nous proposons d'ajouter des contrôles virtuels de caméra 3D aux méthodes de génération vidéo en conditionnant la vidéo générée sur un encodage du mouvement tridimensionnel de la caméra au cours de la vidéo générée. Les résultats démontrent que nous sommes (1) capables de contrôler avec succès la caméra pendant la génération vidéo, à partir d'une seule image et d'un signal de caméra, et (2) nous montrons la précision des trajectoires de caméra 3D générées en utilisant des méthodes traditionnelles de vision par ordinateur.
English
We extend multimodal transformers to include 3D camera motion as a conditioning signal for the task of video generation. Generative video models are becoming increasingly powerful, thus focusing research efforts on methods of controlling the output of such models. We propose to add virtual 3D camera controls to generative video methods by conditioning generated video on an encoding of three-dimensional camera movement over the course of the generated video. Results demonstrate that we are (1) able to successfully control the camera during video generation, starting from a single frame and a camera signal, and (2) we demonstrate the accuracy of the generated 3D camera paths using traditional computer vision methods.

Summary

AI-Generated Summary

PDF121December 15, 2024