WorldFlow3D: Fluyendo a Través de Distribuciones 3D para la Generación de Mundos Ilimitados

Resumen

La generación de mundos 3D ilimitados está surgiendo como una tarea fundamental para el modelado de escenas en visión por computador, gráficos y robótica. En este trabajo, presentamos WorldFlow3D, un método novedoso capaz de generar mundos 3D ilimitados. Partiendo de una propiedad fundamental del *flow matching* —es decir, definir una ruta de transporte entre dos distribuciones de datos— modelamos la generación 3D de manera más general como un problema de flujo a través de distribuciones de datos 3D, sin limitarnos a la eliminación de ruido condicional. Descubrimos que nuestro enfoque de flujo libre de latencias genera una estructura 3D causal y precisa, y puede utilizar esto como una distribución intermedia para guiar la generación de estructuras más complejas y texturas de alta calidad, todo ello convergiendo más rápidamente que los métodos existentes. Habilitamos la controlabilidad sobre las escenas generadas mediante condiciones de diseño de escena vectorizadas para el control de la estructura geométrica y el control de texturas visuales a través de atributos de escena. Confirmamos la efectividad de WorldFlow3D tanto en escenas reales de conducción en exteriores como en escenas sintéticas de interiores, validando la generalizabilidad entre dominios y la generación de alta calidad en distribuciones de datos reales. Confirmamos una fidelidad de generación de escenas favorable frente a otros enfoques en todos los entornos probados para la generación de escenas ilimitadas. Para más información, visite https://light.princeton.edu/worldflow3d.

English

Unbounded 3D world generation is emerging as a foundational task for scene modeling in computer vision, graphics, and robotics. In this work, we present WorldFlow3D, a novel method capable of generating unbounded 3D worlds. Building upon a foundational property of flow matching - namely, defining a path of transport between two data distributions - we model 3D generation more generally as a problem of flowing through 3D data distributions, not limited to conditional denoising. We find that our latent-free flow approach generates causal and accurate 3D structure, and can use this as an intermediate distribution to guide the generation of more complex structure and high-quality texture - all while converging more rapidly than existing methods. We enable controllability over generated scenes with vectorized scene layout conditions for geometric structure control and visual texture control through scene attributes. We confirm the effectiveness of WorldFlow3D on both real outdoor driving scenes and synthetic indoor scenes, validating cross-domain generalizability and high-quality generation on real data distributions. We confirm favorable scene generation fidelity over approaches in all tested settings for unbounded scene generation. For more, see https://light.princeton.edu/worldflow3d.

WorldFlow3D: Fluyendo a Través de Distribuciones 3D para la Generación de Mundos Ilimitados

WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

Resumen

Support