렌더러 기반 에이전트 추론을 통한 조명 기반 비디오 생성
Lighting-grounded Video Generation with Renderer-based Agent Reasoning
April 9, 2026
저자: Ziqi Cai, Taoyu Yang, Zheng Chang, Si Li, Han Jiang, Shuchen Weng, Boxin Shi
cs.AI
초록
확산 모델은 비디오 생성 분야에서 놀라운 발전을 이루었으나, 제어 가능성은 여전히 주요 한계로 남아 있습니다. 레이아웃, 조명, 카메라 궤적과 같은 핵심 장면 요소들이 종종 얽히거나 약하게만 모델링되어, 명시적인 장면 제어가 필수적인 영화 제작 및 가상 프로덕션과 같은 분야에서의 적용이 제한됩니다. 본 논문에서는 장면 제어가 가능한 비디오 생성을 위한 확산 기반 프레임워크인 LiVER를 제안합니다. 이를 위해 객체 레이아웃, 조명, 카메라 매개변수에 대한 조밀한 주석이 포함된 새로운 대규모 데이터셋을 기반으로 명시적인 3D 장면 속성을 조건으로 하는 비디오 합성 프레임워크를 소개합니다. 우리의 방법은 통합된 3D 표현으로부터 제어 신호를 렌더링하여 이러한 속성들을 분리합니다. 경량 조건화 모듈과 점진적 학습 전략을 제안하여 이러한 신호들을 기본 비디오 확산 모델에 통합함으로써 안정적인 수렴과 높은 정확도를 보장합니다. 우리의 프레임워크는 기본 3D 장면이 완전히 편집 가능한 이미지-비디오 및 비디오-비디오 합성을 포함한 다양한 응용 프로그램을 가능하게 합니다. 사용성을 더욱 향상시키기 위해, 높은 수준의 사용자 지시를 필요한 3D 제어 신호로 자동 변환하는 장면 에이전트를 개발합니다. 실험 결과, LiVER는 장면 요소에 대한 정밀하고 분리된 제어를 가능하게 하면서도 최첨단의 사실감과 시간적 일관성을 달성하여 제어 가능한 비디오 생성의 새로운 기준을 제시합니다.
English
Diffusion models have achieved remarkable progress in video generation, but their controllability remains a major limitation. Key scene factors such as layout, lighting, and camera trajectory are often entangled or only weakly modeled, restricting their applicability in domains like filmmaking and virtual production where explicit scene control is essential. We present LiVER, a diffusion-based framework for scene-controllable video generation. To achieve this, we introduce a novel framework that conditions video synthesis on explicit 3D scene properties, supported by a new large-scale dataset with dense annotations of object layout, lighting, and camera parameters. Our method disentangles these properties by rendering control signals from a unified 3D representation. We propose a lightweight conditioning module and a progressive training strategy to integrate these signals into a foundational video diffusion model, ensuring stable convergence and high fidelity. Our framework enables a wide range of applications, including image-to-video and video-to-video synthesis where the underlying 3D scene is fully editable. To further enhance usability, we develop a scene agent that automatically translates high-level user instructions into the required 3D control signals. Experiments show that LiVER achieves state-of-the-art photorealism and temporal consistency while enabling precise, disentangled control over scene factors, setting a new standard for controllable video generation.