Een Object is 64x64 Pixels Waard: Genereren van 3D-Objecten via Beelddiffusie

Samenvatting

We introduceren een nieuwe aanpak voor het genereren van realistische 3D-modellen met UV-mapping via een representatie genaamd "Object Images." Deze aanpak omvat oppervlaktegeometrie, uiterlijk en patchstructuren binnen een 64x64 pixel afbeelding, waardoor complexe 3D-vormen effectief worden omgezet in een beter hanteerbaar 2D-formaat. Hiermee pakken we de uitdagingen aan van zowel geometrische als semantische onregelmatigheden die inherent zijn aan polygonale meshes. Deze methode stelt ons in staat om beeldgeneratiemodellen, zoals Diffusion Transformers, direct te gebruiken voor 3D-vormgeneratie. Geëvalueerd op de ABO-dataset, bereiken onze gegenereerde vormen met patchstructuren een puntwolk-FID die vergelijkbaar is met recente 3D-generatieve modellen, terwijl ze van nature PBR-materiaalgeneratie ondersteunen.

English

We introduce a new approach for generating realistic 3D models with UV maps through a representation termed "Object Images." This approach encapsulates surface geometry, appearance, and patch structures within a 64x64 pixel image, effectively converting complex 3D shapes into a more manageable 2D format. By doing so, we address the challenges of both geometric and semantic irregularity inherent in polygonal meshes. This method allows us to use image generation models, such as Diffusion Transformers, directly for 3D shape generation. Evaluated on the ABO dataset, our generated shapes with patch structures achieve point cloud FID comparable to recent 3D generative models, while naturally supporting PBR material generation.

Een Object is 64x64 Pixels Waard: Genereren van 3D-Objecten via Beelddiffusie

An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion

Samenvatting

Support