ChatPaper.aiChatPaper

IllumiCraft: 제어 가능한 비디오 생성을 위한 통합 기하학 및 조명 확산

IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

June 3, 2025
저자: Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang
cs.AI

초록

확산 기반 모델은 텍스트나 이미지 입력으로부터 고품질의 고해상도 비디오 시퀀스를 생성할 수 있지만, 프레임 간의 장면 조명과 시각적 외관을 제어할 때 명시적인 기하학적 단서를 통합하지 못한다는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 IllumiCraft를 제안합니다. 이는 세 가지 상호 보완적인 입력을 받는 종단 간 확산 프레임워크로, (1) 상세한 조명 제어를 위한 고동적 범위(HDR) 비디오 맵, (2) 무작위 조명 변화가 적용된 합성 재조명 프레임(선택적으로 정적 배경 참조 이미지와 함께 제공됨)을 통해 외관 단서를 제공하며, (3) 정확한 3D 기하학 정보를 포착하는 3D 포인트 트랙을 포함합니다. 조명, 외관, 기하학적 단서를 통합된 확산 아키텍처 내에서 통합함으로써, IllumiCraft는 사용자 정의 프롬프트와 일치하는 시간적 일관성을 가진 비디오를 생성합니다. 이는 배경 조건 및 텍스트 조건 비디오 재조명을 지원하며, 기존의 제어 가능한 비디오 생성 방법보다 더 나은 충실도를 제공합니다. 프로젝트 페이지: https://yuanze-lin.me/IllumiCraft_page
English
Although diffusion-based models can generate high-quality and high-resolution video sequences from textual or image inputs, they lack explicit integration of geometric cues when controlling scene lighting and visual appearance across frames. To address this limitation, we propose IllumiCraft, an end-to-end diffusion framework accepting three complementary inputs: (1) high-dynamic-range (HDR) video maps for detailed lighting control; (2) synthetically relit frames with randomized illumination changes (optionally paired with a static background reference image) to provide appearance cues; and (3) 3D point tracks that capture precise 3D geometry information. By integrating the lighting, appearance, and geometry cues within a unified diffusion architecture, IllumiCraft generates temporally coherent videos aligned with user-defined prompts. It supports background-conditioned and text-conditioned video relighting and provides better fidelity than existing controllable video generation methods. Project Page: https://yuanze-lin.me/IllumiCraft_page
PDF213June 5, 2025