WorldFlow3D: Fluindo Através de Distribuições 3D para Geração Ilimitada de Mundos

Resumo

A geração ilimitada de mundos 3D está emergindo como uma tarefa fundamental para a modelagem de cenas em visão computacional, gráficos e robótica. Neste trabalho, apresentamos o WorldFlow3D, um método inovador capaz de gerar mundos 3D ilimitados. Com base numa propriedade fundamental do *flow matching* - especificamente, a definição de um caminho de transporte entre duas distribuições de dados - modelamos a geração 3D de forma mais geral como um problema de fluxo através de distribuições de dados 3D, não limitado à remoção de ruído condicional. Verificamos que a nossa abordagem de fluxo livre de *latents* gera uma estrutura 3D causal e precisa, e pode usar isso como uma distribuição intermediária para orientar a geração de estruturas mais complexas e texturas de alta qualidade - tudo enquanto converge mais rapidamente do que os métodos existentes. Permitimos a controlabilidade sobre as cenas geradas com condições de layout de cena vetorizadas para controlo da estrutura geométrica e controlo de textura visual através de atributos de cena. Confirmamos a eficácia do WorldFlow3D tanto em cenas reais de condução ao ar livre como em cenas sintéticas de interior, validando a generalizabilidade transversal a domínios e a geração de alta qualidade em distribuições de dados reais. Confirmamos uma fidelidade de geração de cenas superior às abordagens em todos os cenários testados para geração ilimitada de cenas. Para mais informações, consulte https://light.princeton.edu/worldflow3d.

English

Unbounded 3D world generation is emerging as a foundational task for scene modeling in computer vision, graphics, and robotics. In this work, we present WorldFlow3D, a novel method capable of generating unbounded 3D worlds. Building upon a foundational property of flow matching - namely, defining a path of transport between two data distributions - we model 3D generation more generally as a problem of flowing through 3D data distributions, not limited to conditional denoising. We find that our latent-free flow approach generates causal and accurate 3D structure, and can use this as an intermediate distribution to guide the generation of more complex structure and high-quality texture - all while converging more rapidly than existing methods. We enable controllability over generated scenes with vectorized scene layout conditions for geometric structure control and visual texture control through scene attributes. We confirm the effectiveness of WorldFlow3D on both real outdoor driving scenes and synthetic indoor scenes, validating cross-domain generalizability and high-quality generation on real data distributions. We confirm favorable scene generation fidelity over approaches in all tested settings for unbounded scene generation. For more, see https://light.princeton.edu/worldflow3d.