WorldFlow3D: Scorrere Attraverso Distribuzioni 3D per la Generazione di Mondi Illimitati

Abstract

La generazione di mondi 3D illimitati sta emergendo come un compito fondamentale per la modellazione di scene nella computer vision, nella grafica e nella robotica. In questo lavoro, presentiamo WorldFlow3D, un metodo innovativo in grado di generare mondi 3D illimitati. Basandoci su una proprietà fondamentale del *flow matching* - ovvero la definizione di un percorso di trasporto tra due distribuzioni di dati - modelliamo la generazione 3D in modo più generale come un problema di flusso attraverso distribuzioni di dati 3D, non limitato al *denoising* condizionale. Rileviamo che il nostro approccio *latent-free flow* genera una struttura 3D causale e accurata e può utilizzarla come distribuzione intermedia per guidare la generazione di strutture più complesse e texture di alta qualità, il tutto convergendo più rapidamente rispetto ai metodi esistenti. Abilitiamo la controllabilità sulle scene generate mediante condizioni di layout di scena vettorizzate per il controllo della struttura geometrica e il controllo della texture visiva attraverso attributi della scena. Confermiamo l'efficacia di WorldFlow3D sia su scene reali di guida all'aperto che su scene indoor sintetiche, validando la generalizzabilità cross-dominio e una generazione di alta qualità su distribuzioni di dati reali. Riconfermiamo una fedeltà di generazione della scene favorevole rispetto agli approcci in tutti gli ambienti testati per la generazione di scene illimitate. Per maggiori informazioni, consultare https://light.princeton.edu/worldflow3d.

English

Unbounded 3D world generation is emerging as a foundational task for scene modeling in computer vision, graphics, and robotics. In this work, we present WorldFlow3D, a novel method capable of generating unbounded 3D worlds. Building upon a foundational property of flow matching - namely, defining a path of transport between two data distributions - we model 3D generation more generally as a problem of flowing through 3D data distributions, not limited to conditional denoising. We find that our latent-free flow approach generates causal and accurate 3D structure, and can use this as an intermediate distribution to guide the generation of more complex structure and high-quality texture - all while converging more rapidly than existing methods. We enable controllability over generated scenes with vectorized scene layout conditions for geometric structure control and visual texture control through scene attributes. We confirm the effectiveness of WorldFlow3D on both real outdoor driving scenes and synthetic indoor scenes, validating cross-domain generalizability and high-quality generation on real data distributions. We confirm favorable scene generation fidelity over approaches in all tested settings for unbounded scene generation. For more, see https://light.princeton.edu/worldflow3d.

WorldFlow3D: Scorrere Attraverso Distribuzioni 3D per la Generazione di Mondi Illimitati

WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

Abstract

Support