IllumiCraft: Difusión Unificada de Geometría e Iluminación para la Generación Controlable de Videos
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation
June 3, 2025
Autores: Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang
cs.AI
Resumen
Aunque los modelos basados en difusión pueden generar secuencias de video de alta calidad y alta resolución a partir de entradas textuales o de imágenes, carecen de una integración explícita de señales geométricas al controlar la iluminación de la escena y la apariencia visual entre fotogramas. Para abordar esta limitación, proponemos IllumiCraft, un marco de difusión de extremo a extremo que acepta tres entradas complementarias: (1) mapas de video de alto rango dinámico (HDR) para un control detallado de la iluminación; (2) fotogramas sintéticamente reiluminados con cambios aleatorios en la iluminación (opcionalmente emparejados con una imagen de referencia de fondo estática) para proporcionar señales de apariencia; y (3) pistas de puntos 3D que capturan información precisa de la geometría 3D. Al integrar las señales de iluminación, apariencia y geometría dentro de una arquitectura de difusión unificada, IllumiCraft genera videos temporalmente coherentes alineados con indicaciones definidas por el usuario. Admite reiluminación de video condicionada al fondo y al texto, y ofrece una mejor fidelidad que los métodos existentes de generación de video controlable. Página del proyecto: https://yuanze-lin.me/IllumiCraft_page
English
Although diffusion-based models can generate high-quality and high-resolution
video sequences from textual or image inputs, they lack explicit integration of
geometric cues when controlling scene lighting and visual appearance across
frames. To address this limitation, we propose IllumiCraft, an end-to-end
diffusion framework accepting three complementary inputs: (1)
high-dynamic-range (HDR) video maps for detailed lighting control; (2)
synthetically relit frames with randomized illumination changes (optionally
paired with a static background reference image) to provide appearance cues;
and (3) 3D point tracks that capture precise 3D geometry information. By
integrating the lighting, appearance, and geometry cues within a unified
diffusion architecture, IllumiCraft generates temporally coherent videos
aligned with user-defined prompts. It supports background-conditioned and
text-conditioned video relighting and provides better fidelity than existing
controllable video generation methods. Project Page:
https://yuanze-lin.me/IllumiCraft_page