Geração Eficiente de Vídeos Controlados por Câmera de Cenas Estáticas via Difusão Esparsa e Renderização 3D

Resumo

Os modelos generativos de vídeo modernos baseados em modelos de difusão podem produzir clipes muito realistas, mas são computacionalmente ineficientes, frequentemente exigindo minutos de tempo de GPU para gerar apenas alguns segundos de vídeo. Essa ineficiência representa uma barreira crítica para a implantação de vídeo generativo em aplicações que exigem interações em tempo real, como IA incorporada e VR/AR. Este artigo explora uma nova estratégia para geração de vídeo condicionada por câmera de cenas estáticas: usar modelos generativos baseados em difusão para gerar um conjunto esparso de quadros-chave e, em seguida, sintetizar o vídeo completo por meio de reconstrução 3D e renderização. Ao elevar os quadros-chave para uma representação 3D e renderizar visões intermediárias, nossa abordagem amortiza o custo de geração através de centenas de quadros, enquanto impõe consistência geométrica. Introduzimos ainda um modelo que prevê o número ideal de quadros-chave para uma determinada trajetória de câmera, permitindo que o sistema aloque computação de forma adaptativa. Nosso método final, SRENDER, utiliza quadros-chave muito esparsos para trajetórias simples e mais densos para movimentos complexos de câmera. Isso resulta em uma geração de vídeo mais de 40 vezes mais rápida do que a linha de base baseada em difusão na geração de 20 segundos de vídeo, mantendo alta fidelidade visual e estabilidade temporal, oferecendo um caminho prático para síntese de vídeo eficiente e controlável.

English

Modern video generative models based on diffusion models can produce very realistic clips, but they are computationally inefficient, often requiring minutes of GPU time for just a few seconds of video. This inefficiency poses a critical barrier to deploying generative video in applications that require real-time interactions, such as embodied AI and VR/AR. This paper explores a new strategy for camera-conditioned video generation of static scenes: using diffusion-based generative models to generate a sparse set of keyframes, and then synthesizing the full video through 3D reconstruction and rendering. By lifting keyframes into a 3D representation and rendering intermediate views, our approach amortizes the generation cost across hundreds of frames while enforcing geometric consistency. We further introduce a model that predicts the optimal number of keyframes for a given camera trajectory, allowing the system to adaptively allocate computation. Our final method, SRENDER, uses very sparse keyframes for simple trajectories and denser ones for complex camera motion. This results in video generation that is more than 40 times faster than the diffusion-based baseline in generating 20 seconds of video, while maintaining high visual fidelity and temporal stability, offering a practical path toward efficient and controllable video synthesis.

Geração Eficiente de Vídeos Controlados por Câmera de Cenas Estáticas via Difusão Esparsa e Renderização 3D

Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

Resumo

Support