Génération de vidéos ancrées dans l'éclairage avec raisonnement d'agent basé sur un moteur de rendu

Résumé

Les modèles de diffusion ont réalisé des progrès remarquables en génération vidéo, mais leur contrôlabilité reste une limitation majeure. Des facteurs scéniques clés tels que la composition, l'éclairage et la trajectoire caméra sont souvent entremêlés ou faiblement modélisés, limitant leur applicabilité dans des domaines comme la réalisation cinématographique et la production virtuelle où le contrôle explicite de la scène est essentiel. Nous présentons LiVER, un framework basé sur la diffusion pour la génération vidéo avec contrôle scénique. Pour y parvenir, nous introduisons une nouvelle architecture qui conditionne la synthèse vidéo sur des propriétés scéniques 3D explicites, soutenue par un nouveau jeu de données à grande échelle comportant des annotations denses de la disposition des objets, de l'éclairage et des paramètres caméra. Notre méthode désentrelace ces propriétés en générant des signaux de contrôle à partir d'une représentation 3D unifiée. Nous proposons un module de conditionnement léger et une stratégie d'entraînement progressive pour intégrer ces signaux dans un modèle de diffusion vidéo fondamental, garantissant une convergence stable et une haute fidélité. Notre framework permet un large éventail d'applications, incluant la synthèse image-à-vidéo et vidéo-à-vidéo où la scène 3D sous-jacente est entièrement modifiable. Pour améliorer davantage l'utilisabilité, nous développons un agent scénique qui traduit automatiquement des instructions utilisateur de haut niveau en signaux de contrôle 3D requis. Les expériences montrent que LiVER atteint un photoréalisme et une cohérence temporelle à l'état de l'art tout en permettant un contrôle précis et désentrelacé des facteurs scéniques, établissant une nouvelle référence pour la génération vidéo contrôlable.

English

Diffusion models have achieved remarkable progress in video generation, but their controllability remains a major limitation. Key scene factors such as layout, lighting, and camera trajectory are often entangled or only weakly modeled, restricting their applicability in domains like filmmaking and virtual production where explicit scene control is essential. We present LiVER, a diffusion-based framework for scene-controllable video generation. To achieve this, we introduce a novel framework that conditions video synthesis on explicit 3D scene properties, supported by a new large-scale dataset with dense annotations of object layout, lighting, and camera parameters. Our method disentangles these properties by rendering control signals from a unified 3D representation. We propose a lightweight conditioning module and a progressive training strategy to integrate these signals into a foundational video diffusion model, ensuring stable convergence and high fidelity. Our framework enables a wide range of applications, including image-to-video and video-to-video synthesis where the underlying 3D scene is fully editable. To further enhance usability, we develop a scene agent that automatically translates high-level user instructions into the required 3D control signals. Experiments show that LiVER achieves state-of-the-art photorealism and temporal consistency while enabling precise, disentangled control over scene factors, setting a new standard for controllable video generation.

Génération de vidéos ancrées dans l'éclairage avec raisonnement d'agent basé sur un moteur de rendu

Lighting-grounded Video Generation with Renderer-based Agent Reasoning

Résumé

Support