Генерация видео на основе освещения с использованием рендерерного агентного рассуждения

Аннотация

Модели диффузии достигли значительного прогресса в генерации видео, однако их управляемость остаётся серьёзным ограничением. Ключевые факторы сцены, такие как композиция, освещение и траектория камеры, часто оказываются переплетёнными или слабо моделируемыми, что сужает их применимость в таких областях, как кинопроизводство и виртуальное производство, где явный контроль над сценой крайне важен. Мы представляем LiVER — основанную на диффузии архитектуру для генерации видео с управлением сценой. Для этого мы предлагаем новую структуру, которая обуславливает синтез видео явными трёхмерными свойствами сцены, поддерживаемую новым крупномасштабным набором данных с плотной разметкой объектов, освещения и параметров камеры. Наш метод разделяет эти свойства путём рендеринга управляющих сигналов из единого 3D-представления. Мы предлагаем облегчённый модуль кондиционирования и прогрессивную стратегию обучения для интеграции этих сигналов в базовую модель диффузии видео, обеспечивая стабильную сходимость и высокую точность. Наша архитектура позволяет реализовать широкий спектр применений, включая синтез «изображение-в-видео» и «видео-в-видео», где лежащая в основе 3D-сцена полностью редактируема. Для повышения удобства использования мы разработали сцен-агент, который автоматически преобразует высокоуровневые инструкции пользователя в необходимые 3D-управляющие сигналы. Эксперименты показывают, что LiVER достигает передового уровня фотореалистичности и временной согласованности, обеспечивая точное разделённое управление факторами сцены и задавая новый стандарт для управляемой генерации видео.

English

Diffusion models have achieved remarkable progress in video generation, but their controllability remains a major limitation. Key scene factors such as layout, lighting, and camera trajectory are often entangled or only weakly modeled, restricting their applicability in domains like filmmaking and virtual production where explicit scene control is essential. We present LiVER, a diffusion-based framework for scene-controllable video generation. To achieve this, we introduce a novel framework that conditions video synthesis on explicit 3D scene properties, supported by a new large-scale dataset with dense annotations of object layout, lighting, and camera parameters. Our method disentangles these properties by rendering control signals from a unified 3D representation. We propose a lightweight conditioning module and a progressive training strategy to integrate these signals into a foundational video diffusion model, ensuring stable convergence and high fidelity. Our framework enables a wide range of applications, including image-to-video and video-to-video synthesis where the underlying 3D scene is fully editable. To further enhance usability, we develop a scene agent that automatically translates high-level user instructions into the required 3D control signals. Experiments show that LiVER achieves state-of-the-art photorealism and temporal consistency while enabling precise, disentangled control over scene factors, setting a new standard for controllable video generation.

Генерация видео на основе освещения с использованием рендерерного агентного рассуждения

Lighting-grounded Video Generation with Renderer-based Agent Reasoning

Аннотация

Support