ChatPaper.aiChatPaper

GenXD: Gerando Cenários 3D e 4D Arbitrários

GenXD: Generating Any 3D and 4D Scenes

November 4, 2024
Autores: Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang
cs.AI

Resumo

Os recentes avanços na geração visual 2D têm sido notavelmente bem-sucedidos. No entanto, a geração 3D e 4D ainda apresenta desafios em aplicações do mundo real devido à falta de dados em grande escala em 4D e ao design eficaz do modelo. Neste artigo, propomos investigar conjuntamente a geração geral em 3D e 4D, aproveitando os movimentos de câmera e objetos comumente observados na vida cotidiana. Devido à escassez de dados reais em 4D na comunidade, propomos inicialmente um pipeline de curadoria de dados para obter poses de câmera e intensidade de movimento do objeto a partir de vídeos. Com base nesse pipeline, introduzimos um conjunto de dados de cena 4D do mundo real em grande escala: CamVid-30K. Ao aproveitar todos os dados em 3D e 4D, desenvolvemos nosso framework, GenXD, que nos permite produzir qualquer cena em 3D ou 4D. Propomos módulos multivisão-temporais, que separam os movimentos de câmera e objeto, para aprender de forma contínua a partir de dados em 3D e 4D. Além disso, o GenXD emprega condições latentes mascaradas para suportar uma variedade de visualizações condicionais. O GenXD pode gerar vídeos que seguem a trajetória da câmera, bem como visualizações 3D consistentes que podem ser convertidas em representações 3D. Realizamos extensas avaliações em diversos conjuntos de dados do mundo real e sintéticos, demonstrando a eficácia e versatilidade do GenXD em comparação com métodos anteriores na geração em 3D e 4D.
English
Recent developments in 2D visual generation have been remarkably successful. However, 3D and 4D generation remain challenging in real-world applications due to the lack of large-scale 4D data and effective model design. In this paper, we propose to jointly investigate general 3D and 4D generation by leveraging camera and object movements commonly observed in daily life. Due to the lack of real-world 4D data in the community, we first propose a data curation pipeline to obtain camera poses and object motion strength from videos. Based on this pipeline, we introduce a large-scale real-world 4D scene dataset: CamVid-30K. By leveraging all the 3D and 4D data, we develop our framework, GenXD, which allows us to produce any 3D or 4D scene. We propose multiview-temporal modules, which disentangle camera and object movements, to seamlessly learn from both 3D and 4D data. Additionally, GenXD employs masked latent conditions to support a variety of conditioning views. GenXD can generate videos that follow the camera trajectory as well as consistent 3D views that can be lifted into 3D representations. We perform extensive evaluations across various real-world and synthetic datasets, demonstrating GenXD's effectiveness and versatility compared to previous methods in 3D and 4D generation.

Summary

AI-Generated Summary

PDF201November 13, 2024