ChatPaper.aiChatPaper

CamViG: Generación de Imagen a Video Consciente de la Cámara con Transformadores Multimodales

CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

May 21, 2024
Autores: Andrew Marmon, Grant Schindler, José Lezama, Dan Kondratyuk, Bryan Seybold, Irfan Essa
cs.AI

Resumen

Extendemos los transformadores multimodales para incluir el movimiento de cámara 3D como una señal de condicionamiento en la tarea de generación de video. Los modelos generativos de video están volviéndose cada vez más potentes, lo que enfoca los esfuerzos de investigación en métodos para controlar la salida de dichos modelos. Proponemos añadir controles virtuales de cámara 3D a los métodos generativos de video condicionando el video generado en una codificación del movimiento tridimensional de la cámara a lo largo del video generado. Los resultados demuestran que (1) somos capaces de controlar exitosamente la cámara durante la generación de video, partiendo de un solo fotograma y una señal de cámara, y (2) demostramos la precisión de las trayectorias de cámara 3D generadas utilizando métodos tradicionales de visión por computadora.
English
We extend multimodal transformers to include 3D camera motion as a conditioning signal for the task of video generation. Generative video models are becoming increasingly powerful, thus focusing research efforts on methods of controlling the output of such models. We propose to add virtual 3D camera controls to generative video methods by conditioning generated video on an encoding of three-dimensional camera movement over the course of the generated video. Results demonstrate that we are (1) able to successfully control the camera during video generation, starting from a single frame and a camera signal, and (2) we demonstrate the accuracy of the generated 3D camera paths using traditional computer vision methods.

Summary

AI-Generated Summary

PDF121December 15, 2024