Light-X: Генеративный рендеринг 4D-видео с контролем камеры и освещения

Аннотация

Последние достижения в управлении освещением расширяют применение методов на основе изображений до видео, однако по-прежнему сохраняется компромисс между точностью передачи освещения и временной согласованностью. Выходя за рамки переосвещения, ключевым шагом к генеративному моделированию реальных сцен является совместное управление траекторией камеры и освещением, поскольку визуальная динамика по своей природе формируется как геометрией, так и освещением. В связи с этим мы представляем Light-X — фреймворк для генерации видео, который позволяет осуществлять управляемый рендеринг из монокулярных видео с контролем как точки обзора, так и освещения. 1) Мы предлагаем развязанную архитектуру, которая разделяет геометрические и световые сигналы: геометрия и движение захватываются с помощью динамических облаков точек, проецируемых вдоль задаваемых пользователем траекторий камеры, в то время как информация об освещении предоставляется переосвещенным кадром, последовательно проецируемым на ту же геометрию. Эти явные, детализированные сигналы обеспечивают эффективное разделение и направляют формирование высококачественного освещения. 2) Для решения проблемы отсутствия парных видео с множественных viewpoints и при разном освещении мы представляем Light-Syn — конвейер на основе деградации с обратным отображением, который синтезирует обучающие пары из произвольных монокулярных видеозаписей. Данная стратегия позволяет получить набор данных, охватывающий статические, динамические и сгенерированные ИИ сцены, что обеспечивает надежное обучение. Многочисленные эксперименты показывают, что Light-X превосходит базовые методы в совместном управлении камерой и освещением и превосходит предыдущие методы переосвещения видео как в текстовых, так и в фоновых условиях.

English

Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.

Light-X: Генеративный рендеринг 4D-видео с контролем камеры и освещения

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Аннотация

Support