IllumiCraft: Difusión Unificada de Geometría e Iluminación para la Generación Controlable de Videos

Resumen

Aunque los modelos basados en difusión pueden generar secuencias de video de alta calidad y alta resolución a partir de entradas textuales o de imágenes, carecen de una integración explícita de señales geométricas al controlar la iluminación de la escena y la apariencia visual entre fotogramas. Para abordar esta limitación, proponemos IllumiCraft, un marco de difusión de extremo a extremo que acepta tres entradas complementarias: (1) mapas de video de alto rango dinámico (HDR) para un control detallado de la iluminación; (2) fotogramas sintéticamente reiluminados con cambios aleatorios en la iluminación (opcionalmente emparejados con una imagen de referencia de fondo estática) para proporcionar señales de apariencia; y (3) pistas de puntos 3D que capturan información precisa de la geometría 3D. Al integrar las señales de iluminación, apariencia y geometría dentro de una arquitectura de difusión unificada, IllumiCraft genera videos temporalmente coherentes alineados con indicaciones definidas por el usuario. Admite reiluminación de video condicionada al fondo y al texto, y ofrece una mejor fidelidad que los métodos existentes de generación de video controlable. Página del proyecto: https://yuanze-lin.me/IllumiCraft_page

English

Although diffusion-based models can generate high-quality and high-resolution video sequences from textual or image inputs, they lack explicit integration of geometric cues when controlling scene lighting and visual appearance across frames. To address this limitation, we propose IllumiCraft, an end-to-end diffusion framework accepting three complementary inputs: (1) high-dynamic-range (HDR) video maps for detailed lighting control; (2) synthetically relit frames with randomized illumination changes (optionally paired with a static background reference image) to provide appearance cues; and (3) 3D point tracks that capture precise 3D geometry information. By integrating the lighting, appearance, and geometry cues within a unified diffusion architecture, IllumiCraft generates temporally coherent videos aligned with user-defined prompts. It supports background-conditioned and text-conditioned video relighting and provides better fidelity than existing controllable video generation methods. Project Page: https://yuanze-lin.me/IllumiCraft_page