Generación Eficiente de Vídeo Controlado por Cámara de Escenas Estáticas mediante Difusión Dispersa y Renderizado 3D
Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering
January 14, 2026
Autores: Jieying Chen, Jeffrey Hu, Joan Lasenby, Ayush Tewari
cs.AI
Resumen
Los modelos generativos de video modernos basados en modelos de difusión pueden producir clips muy realistas, pero son computacionalmente ineficientes, a menudo requiriendo minutos de tiempo de GPU para solo unos segundos de video. Esta ineficiencia representa una barrera crítica para implementar video generativo en aplicaciones que requieren interacciones en tiempo real, como IA incorporada y realidad virtual/aumentada. Este artículo explora una nueva estrategia para la generación de video condicionada por cámara en escenas estáticas: utilizar modelos generativos basados en difusión para generar un conjunto disperso de fotogramas clave, y luego sintetizar el video completo mediante reconstrucción 3D y renderizado. Al elevar los fotogramas clave a una representación 3D y renderizar vistas intermedias, nuestro enfoque distribuye el costo de generación a lo largo de cientos de fotogramas mientras impone consistencia geométrica. Además, introducimos un modelo que predice el número óptimo de fotogramas clave para una trayectoria de cámara dada, permitiendo que el sistema asigne computación de manera adaptativa. Nuestro método final, SRENDER, utiliza fotogramas clave muy dispersos para trayectorias simples y más densos para movimientos de cámara complejos. Esto resulta en una generación de video que es más de 40 veces más rápida que la línea base basada en difusión al generar 20 segundos de video, manteniendo alta fidelidad visual y estabilidad temporal, ofreciendo un camino práctico hacia la síntesis de video eficiente y controlable.
English
Modern video generative models based on diffusion models can produce very realistic clips, but they are computationally inefficient, often requiring minutes of GPU time for just a few seconds of video. This inefficiency poses a critical barrier to deploying generative video in applications that require real-time interactions, such as embodied AI and VR/AR. This paper explores a new strategy for camera-conditioned video generation of static scenes: using diffusion-based generative models to generate a sparse set of keyframes, and then synthesizing the full video through 3D reconstruction and rendering. By lifting keyframes into a 3D representation and rendering intermediate views, our approach amortizes the generation cost across hundreds of frames while enforcing geometric consistency. We further introduce a model that predicts the optimal number of keyframes for a given camera trajectory, allowing the system to adaptively allocate computation. Our final method, SRENDER, uses very sparse keyframes for simple trajectories and denser ones for complex camera motion. This results in video generation that is more than 40 times faster than the diffusion-based baseline in generating 20 seconds of video, while maintaining high visual fidelity and temporal stability, offering a practical path toward efficient and controllable video synthesis.