ChatPaper.aiChatPaper

4Real: 비디오 확산 모델을 통한 사실적인 4D 장면 생성 기술

4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

June 11, 2024
저자: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI

초록

기존의 동적 장면 생성 방법들은 대부분 사전 학습된 3D 생성 모델로부터 지식을 추출하는 방식에 의존하며, 이 모델들은 일반적으로 합성 객체 데이터셋에 대해 미세 조정됩니다. 그 결과, 생성된 장면들은 주로 객체 중심적이며 사실감이 부족한 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 사실적인 텍스트-투-4D 장면 생성을 위해 설계된 새로운 파이프라인을 제안합니다. 이 파이프라인은 다중 시점 생성 모델에 대한 의존성을 버리고, 대신 다양한 실제 데이터셋으로 학습된 비디오 생성 모델을 완전히 활용합니다. 우리의 방법은 먼저 비디오 생성 모델을 사용하여 참조 비디오를 생성하는 것으로 시작합니다. 그런 다음, 참조 비디오로부터 세심하게 생성된 고정 시간 비디오를 사용하여 비디오의 정규 3D 표현을 학습합니다. 고정 시간 비디오의 불일치를 처리하기 위해, 우리는 이러한 결함을 모델링하기 위해 프레임별 변형을 공동으로 학습합니다. 그런 다음, 참조 비디오의 동적 상호작용을 포착하기 위해 정규 표현을 기반으로 시간적 변형을 학습합니다. 이 파이프라인은 다중 시점에서 볼 수 있는 향상된 사실감과 구조적 완전성을 가진 동적 장면의 생성을 가능하게 하여, 4D 장면 생성 분야에서 새로운 기준을 제시합니다.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge from pre-trained 3D generative models, which are typically fine-tuned on synthetic object datasets. As a result, the generated scenes are often object-centric and lack photorealism. To address these limitations, we introduce a novel pipeline designed for photorealistic text-to-4D scene generation, discarding the dependency on multi-view generative models and instead fully utilizing video generative models trained on diverse real-world datasets. Our method begins by generating a reference video using the video generation model. We then learn the canonical 3D representation of the video using a freeze-time video, delicately generated from the reference video. To handle inconsistencies in the freeze-time video, we jointly learn a per-frame deformation to model these imperfections. We then learn the temporal deformation based on the canonical representation to capture dynamic interactions in the reference video. The pipeline facilitates the generation of dynamic scenes with enhanced photorealism and structural integrity, viewable from multiple perspectives, thereby setting a new standard in 4D scene generation.

Summary

AI-Generated Summary

PDF133December 8, 2024