Geração de Vídeo Fundamentada em Iluminação com Raciocínio de Agente Baseado em Renderizador

Resumo

Os modelos de difusão alcançaram progressos notáveis na geração de vídeos, mas sua controlabilidade permanece uma grande limitação. Fatores-chave de cena, como layout, iluminação e trajetória da câmera, frequentemente se encontram entrelaçados ou apenas fracamente modelados, restringindo sua aplicabilidade em domínios como cinematografia e produção virtual, onde o controle explícito da cena é essencial. Apresentamos o LiVER, uma estrutura baseada em difusão para geração de vídeo com controle de cena. Para isso, introduzimos uma nova estrutura que condiciona a síntese de vídeo a propriedades explícitas de cena 3D, apoiada por um novo conjunto de dados em larga escala com anotações densas de layout de objetos, iluminação e parâmetros de câmera. Nosso método desembaraça essas propriedades renderizando sinais de controle a partir de uma representação 3D unificada. Propomos um módulo de condicionamento leve e uma estratégia de treinamento progressivo para integrar esses sinais em um modelo de difusão de vídeo fundamental, garantindo convergência estável e alta fidelidade. Nossa estrutura permite uma ampla gama de aplicações, incluindo síntese de imagem para vídeo e vídeo para vídeo, onde a cena 3D subjacente é totalmente editável. Para melhorar ainda mais a usabilidade, desenvolvemos um agente de cena que traduz automaticamente instruções de alto nível do usuário nos sinais de controle 3D necessários. Experimentos mostram que o LiVER alcança um fotorrealismo e uma consistência temporal de última geração, permitindo um controle preciso e desacoplado sobre os fatores da cena, estabelecendo um novo padrão para a geração de vídeo controlável.

English

Diffusion models have achieved remarkable progress in video generation, but their controllability remains a major limitation. Key scene factors such as layout, lighting, and camera trajectory are often entangled or only weakly modeled, restricting their applicability in domains like filmmaking and virtual production where explicit scene control is essential. We present LiVER, a diffusion-based framework for scene-controllable video generation. To achieve this, we introduce a novel framework that conditions video synthesis on explicit 3D scene properties, supported by a new large-scale dataset with dense annotations of object layout, lighting, and camera parameters. Our method disentangles these properties by rendering control signals from a unified 3D representation. We propose a lightweight conditioning module and a progressive training strategy to integrate these signals into a foundational video diffusion model, ensuring stable convergence and high fidelity. Our framework enables a wide range of applications, including image-to-video and video-to-video synthesis where the underlying 3D scene is fully editable. To further enhance usability, we develop a scene agent that automatically translates high-level user instructions into the required 3D control signals. Experiments show that LiVER achieves state-of-the-art photorealism and temporal consistency while enabling precise, disentangled control over scene factors, setting a new standard for controllable video generation.

Geração de Vídeo Fundamentada em Iluminação com Raciocínio de Agente Baseado em Renderizador

Lighting-grounded Video Generation with Renderer-based Agent Reasoning

Resumo

Support