ChatPaper.aiChatPaper

TexFusion: Synthese van 3D-texturen met tekstgeleide beelddiffusiemodellen

TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models

October 20, 2023
Auteurs: Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin
cs.AI

Samenvatting

We presenteren TexFusion (Texture Diffusion), een nieuwe methode om texturen te synthetiseren voor gegeven 3D-geometrieën, gebruikmakend van grootschalige tekstgeleide beelddiffusiemodellen. In tegenstelling tot recente werken die 2D tekst-naar-beeld diffusiemodellen inzetten om 3D-objecten te destilleren via een traag en kwetsbaar optimalisatieproces, introduceert TexFusion een nieuwe 3D-consistente generatietechniek die specifiek is ontworpen voor texturesynthese en die reguliere diffusiemodelsteekproeven toepast op verschillende 2D-weergaven van het object. Concreet maken we gebruik van latente diffusiemodellen, passen we de denoiser van het diffusiemodel toe op een reeks 2D-renders van het 3D-object, en aggregeren we de verschillende denoisingvoorspellingen op een gedeelde latente texturemap. De uiteindelijke RGB-textures worden geproduceerd door een tussenliggend neuraal kleurveld te optimaliseren op basis van de decoderingen van 2D-renders van de latente texture. We valideren TexFusion grondig en tonen aan dat we efficiënt diverse, hoogwaardige en globaal coherente texturen kunnen genereren. We behalen state-of-the-art prestaties in tekstgeleide texturesynthese met uitsluitend beelddiffusiemodellen, terwijl we de valkuilen van eerdere destillatiegebaseerde methoden vermijden. De tekstconditionering biedt gedetailleerde controle en we zijn ook niet afhankelijk van enige grondwaarheid 3D-textures voor training. Dit maakt onze methode veelzijdig en toepasbaar op een breed scala aan geometrieën en texturen. We hopen dat TexFusion AI-gebaseerde texturing van 3D-assets zal bevorderen voor toepassingen in virtual reality, gamedesign, simulatie en meer.
English
We present TexFusion (Texture Diffusion), a new method to synthesize textures for given 3D geometries, using large-scale text-guided image diffusion models. In contrast to recent works that leverage 2D text-to-image diffusion models to distill 3D objects using a slow and fragile optimization process, TexFusion introduces a new 3D-consistent generation technique specifically designed for texture synthesis that employs regular diffusion model sampling on different 2D rendered views. Specifically, we leverage latent diffusion models, apply the diffusion model's denoiser on a set of 2D renders of the 3D object, and aggregate the different denoising predictions on a shared latent texture map. Final output RGB textures are produced by optimizing an intermediate neural color field on the decodings of 2D renders of the latent texture. We thoroughly validate TexFusion and show that we can efficiently generate diverse, high quality and globally coherent textures. We achieve state-of-the-art text-guided texture synthesis performance using only image diffusion models, while avoiding the pitfalls of previous distillation-based methods. The text-conditioning offers detailed control and we also do not rely on any ground truth 3D textures for training. This makes our method versatile and applicable to a broad range of geometry and texture types. We hope that TexFusion will advance AI-based texturing of 3D assets for applications in virtual reality, game design, simulation, and more.
PDF72December 14, 2025