ChatPaper.aiChatPaper

4Real: Rumo à Geração Fotorealista de Cenas 4D por meio de Modelos de Difusão de Vídeo

4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

June 11, 2024
Autores: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI

Resumo

Os métodos existentes de geração dinâmica de cenas dependem principalmente da destilação de conhecimento de modelos generativos 3D pré-treinados, que são tipicamente ajustados em conjuntos de dados sintéticos de objetos. Como resultado, as cenas geradas são frequentemente centradas em objetos e carecem de fotorrealismo. Para abordar essas limitações, introduzimos um novo pipeline projetado para a geração fotorrealista de cenas texto-para-4D, descartando a dependência de modelos generativos multivista e, em vez disso, utilizando totalmente modelos generativos de vídeo treinados em diversos conjuntos de dados do mundo real. Nosso método começa gerando um vídeo de referência usando o modelo de geração de vídeo. Em seguida, aprendemos a representação 3D canônica do vídeo usando um vídeo de tempo congelado, gerado delicadamente a partir do vídeo de referência. Para lidar com inconsistências no vídeo de tempo congelado, aprendemos conjuntamente uma deformação por quadro para modelar essas imperfeições. Depois, aprendemos a deformação temporal com base na representação canônica para capturar interações dinâmicas no vídeo de referência. O pipeline facilita a geração de cenas dinâmicas com fotorrealismo e integridade estrutural aprimorados, visualizáveis a partir de múltiplas perspectivas, estabelecendo assim um novo padrão na geração de cenas 4D.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge from pre-trained 3D generative models, which are typically fine-tuned on synthetic object datasets. As a result, the generated scenes are often object-centric and lack photorealism. To address these limitations, we introduce a novel pipeline designed for photorealistic text-to-4D scene generation, discarding the dependency on multi-view generative models and instead fully utilizing video generative models trained on diverse real-world datasets. Our method begins by generating a reference video using the video generation model. We then learn the canonical 3D representation of the video using a freeze-time video, delicately generated from the reference video. To handle inconsistencies in the freeze-time video, we jointly learn a per-frame deformation to model these imperfections. We then learn the temporal deformation based on the canonical representation to capture dynamic interactions in the reference video. The pipeline facilitates the generation of dynamic scenes with enhanced photorealism and structural integrity, viewable from multiple perspectives, thereby setting a new standard in 4D scene generation.
PDF133December 8, 2024