TexFusion: Synthesierung von 3D-Texturen mit textgesteuerten Bilddiffusionsmodellen

papers.abstract

Wir präsentieren TexFusion (Texture Diffusion), eine neue Methode zur Synthese von Texturen für gegebene 3D-Geometrien unter Verwendung großskaliger, textgeführter Bilddiffusionsmodelle. Im Gegensatz zu aktuellen Ansätzen, die 2D-Text-zu-Bild-Diffusionsmodelle nutzen, um 3D-Objekte durch einen langsamen und fehleranfälligen Optimierungsprozess zu destillieren, führt TexFusion eine neue 3D-konsistente Generierungstechnik speziell für die Textursynthese ein. Diese Technik verwendet reguläre Diffusionsmodell-Sampling auf verschiedenen 2D-gerenderten Ansichten. Konkret nutzen wir latente Diffusionsmodelle, wenden den Denoiser des Diffusionsmodells auf eine Reihe von 2D-Renderings des 3D-Objekts an und aggregieren die verschiedenen Denoising-Vorhersagen auf einer gemeinsamen latenten Texturkarte. Die finalen RGB-Texturen werden durch die Optimierung eines intermediären neuronalen Farbfelds auf den Dekodierungen der 2D-Renderings der latenten Textur erzeugt. Wir validieren TexFusion umfassend und zeigen, dass wir effizient diverse, hochwertige und global kohärente Texturen generieren können. Wir erreichen state-of-the-art Leistung bei der textgeführten Textursynthese unter ausschließlicher Verwendung von Bilddiffusionsmodellen, während wir die Fallstricke bisheriger Destillationsmethoden vermeiden. Die Textkonditionierung bietet detaillierte Kontrolle, und wir verlassen uns auch nicht auf Ground-Truth-3D-Texturen für das Training. Dies macht unsere Methode vielseitig und anwendbar auf eine breite Palette von Geometrie- und Texturtypen. Wir hoffen, dass TexFusion die KI-basierte Texturierung von 3D-Assets für Anwendungen in Virtual Reality, Spieldesign, Simulation und mehr vorantreiben wird.

English

We present TexFusion (Texture Diffusion), a new method to synthesize textures for given 3D geometries, using large-scale text-guided image diffusion models. In contrast to recent works that leverage 2D text-to-image diffusion models to distill 3D objects using a slow and fragile optimization process, TexFusion introduces a new 3D-consistent generation technique specifically designed for texture synthesis that employs regular diffusion model sampling on different 2D rendered views. Specifically, we leverage latent diffusion models, apply the diffusion model's denoiser on a set of 2D renders of the 3D object, and aggregate the different denoising predictions on a shared latent texture map. Final output RGB textures are produced by optimizing an intermediate neural color field on the decodings of 2D renders of the latent texture. We thoroughly validate TexFusion and show that we can efficiently generate diverse, high quality and globally coherent textures. We achieve state-of-the-art text-guided texture synthesis performance using only image diffusion models, while avoiding the pitfalls of previous distillation-based methods. The text-conditioning offers detailed control and we also do not rely on any ground truth 3D textures for training. This makes our method versatile and applicable to a broad range of geometry and texture types. We hope that TexFusion will advance AI-based texturing of 3D assets for applications in virtual reality, game design, simulation, and more.

TexFusion: Synthesierung von 3D-Texturen mit textgesteuerten Bilddiffusionsmodellen

TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models

papers.abstract

Support