희소 확산 및 3D 렌더링을 통한 정적 장면의 효율적인 카메라 제어 비디오 생성
Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering
January 14, 2026
저자: Jieying Chen, Jeffrey Hu, Joan Lasenby, Ayush Tewari
cs.AI
초록
확산 모델 기반의 현대적 비디오 생성 모델은 매우 사실적인 영상을 생성할 수 있지만, 몇 초 분량의 비디오를 생성하는 데에도 수 분의 GPU 시간이 소요되는 등 계산 효율성이 낮습니다. 이러한 비율적 비효율성은 구현형 AI 및 VR/AR과 같이 실시간 상호작용이 필요한 응용 분야에 생성형 비디오를 적용하는 데 중요한 장벽으로 작용합니다. 본 논문은 정적 장면에 대한 카메라 조건부 비디오 생성을 위한 새로운 전략을 탐구합니다. 즉, 확산 기반 생성 모델을 사용하여 희소한 키프레임 집합을 생성한 후, 3D 재구성 및 렌더링을 통해 전체 비디오를 합성하는 방식입니다. 키프레임을 3D 표현으로 변환하고 중간 시점을 렌더링함으로써, 우리의 접근 방식은 기하학적 일관성을 유지하면서 수백 개의 프레임에 걸쳐 생성 비용을 분산합니다. 또한 주어진 카메라 궤적에 대해 최적의 키프레임 수를 예측하는 모델을 도입하여 시스템이 계산 자원을 적응적으로 할당할 수 있도록 합니다. 우리의 최종 방법인 SRENDER는 단순한 궤적에는 매우 희소한 키프레임을, 복잡한 카메라 운동에는 더 밀집된 키프레임을 사용합니다. 이를 통해 20초 길이의 비디오 생성 시 확산 모델 기반 기준 방법 대비 40배 이상 빠른 속도를 달성하면서도 높은 시각적 충실도와 시간적 안정성을 유지하여, 효율적이고 제어 가능한 비디오 합성의 실용적인 길을 제시합니다.
English
Modern video generative models based on diffusion models can produce very realistic clips, but they are computationally inefficient, often requiring minutes of GPU time for just a few seconds of video. This inefficiency poses a critical barrier to deploying generative video in applications that require real-time interactions, such as embodied AI and VR/AR. This paper explores a new strategy for camera-conditioned video generation of static scenes: using diffusion-based generative models to generate a sparse set of keyframes, and then synthesizing the full video through 3D reconstruction and rendering. By lifting keyframes into a 3D representation and rendering intermediate views, our approach amortizes the generation cost across hundreds of frames while enforcing geometric consistency. We further introduce a model that predicts the optimal number of keyframes for a given camera trajectory, allowing the system to adaptively allocate computation. Our final method, SRENDER, uses very sparse keyframes for simple trajectories and denser ones for complex camera motion. This results in video generation that is more than 40 times faster than the diffusion-based baseline in generating 20 seconds of video, while maintaining high visual fidelity and temporal stability, offering a practical path toward efficient and controllable video synthesis.