WorldFlow3D : Naviguer à travers les distributions 3D pour une génération de mondes illimitée

Résumé

La génération de mondes 3D non bornés émerge comme une tâche fondamentale pour la modélisation de scènes en vision par ordinateur, en infographie et en robotique. Dans ce travail, nous présentons WorldFlow3D, une méthode novatrice capable de générer des mondes 3D sans limites. En nous appuyant sur une propriété fondamentale de l'appariement de flux – à savoir la définition d'un chemin de transport entre deux distributions de données – nous modélisons la génération 3D plus généralement comme un problème d'écoulement à travers des distributions de données 3D, sans se limiter au débruitage conditionnel. Nous constatons que notre approche de flux sans latent génère une structure 3D causale et précise, et peut l'utiliser comme distribution intermédiaire pour guider la génération de structures plus complexes et de textures de haute qualité, le tout en convergeant plus rapidement que les méthodes existantes. Nous permettons une contrôlabilité sur les scènes générées grâce à des conditions de mise en page vectorisée pour le contrôle de la structure géométrique et un contrôle de la texture visuelle via des attributs de scène. Nous confirmons l'efficacité de WorldFlow3D sur des scènes de conduite extérieures réelles et des scènes intérieures synthétiques, validant la généralisabilité inter-domaines et une génération de haute qualité sur des distributions de données réelles. Nous confirmons une fidélité de génération de scènes supérieure aux approches dans tous les paramètres testés pour la génération de scènes non bornées. Pour en savoir plus, consultez https://light.princeton.edu/worldflow3d.

English

Unbounded 3D world generation is emerging as a foundational task for scene modeling in computer vision, graphics, and robotics. In this work, we present WorldFlow3D, a novel method capable of generating unbounded 3D worlds. Building upon a foundational property of flow matching - namely, defining a path of transport between two data distributions - we model 3D generation more generally as a problem of flowing through 3D data distributions, not limited to conditional denoising. We find that our latent-free flow approach generates causal and accurate 3D structure, and can use this as an intermediate distribution to guide the generation of more complex structure and high-quality texture - all while converging more rapidly than existing methods. We enable controllability over generated scenes with vectorized scene layout conditions for geometric structure control and visual texture control through scene attributes. We confirm the effectiveness of WorldFlow3D on both real outdoor driving scenes and synthetic indoor scenes, validating cross-domain generalizability and high-quality generation on real data distributions. We confirm favorable scene generation fidelity over approaches in all tested settings for unbounded scene generation. For more, see https://light.princeton.edu/worldflow3d.

WorldFlow3D : Naviguer à travers les distributions 3D pour une génération de mondes illimitée

WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

Résumé

Support