ChatPaper.aiChatPaper

TexGen: Generazione di Texture 3D Guidata da Testo con Campionamento Multi-vista e Ricampionamento

TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

August 2, 2024
Autori: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI

Abstract

Dato un mesh 3D, il nostro obiettivo è sintetizzare texture 3D che corrispondano a descrizioni testuali arbitrarie. I metodi attuali per generare e assemblare texture a partire da viste campionate spesso risultano in cuciture evidenti o in un eccessivo livellamento. Per affrontare questi problemi, presentiamo TexGen, un innovativo framework di campionamento e ricampionamento multi-vista per la generazione di texture che sfrutta un modello di diffusione testo-immagine pre-addestrato. Per un campionamento coerente tra le viste, manteniamo innanzitutto una mappa di texture nello spazio RGB, parametrizzata dal passo di denoising e aggiornata dopo ogni passo di campionamento del modello di diffusione, per ridurre progressivamente la discrepanza tra le viste. Una strategia di campionamento multi-vista guidata dall'attenzione viene sfruttata per diffondere le informazioni sull'aspetto tra le diverse viste. Per preservare i dettagli della texture, sviluppiamo una tecnica di ricampionamento del rumore che aiuta a stimare il rumore, generando input per i successivi passi di denoising, guidati dal prompt testuale e dalla mappa di texture corrente. Attraverso una vasta quantità di valutazioni qualitative e quantitative, dimostriamo che il nostro metodo proposto produce una qualità della texture significativamente migliore per oggetti 3D diversi, con un elevato grado di coerenza tra le viste e dettagli di aspetto ricchi, superando i metodi attuali all'avanguardia. Inoltre, la nostra tecnica di generazione di texture può essere applicata anche alla modifica delle texture preservando l'identità originale. Ulteriori risultati sperimentali sono disponibili all'indirizzo https://dong-huo.github.io/TexGen/.
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to arbitrary textual descriptions. Current methods for generating and assembling textures from sampled views often result in prominent seams or excessive smoothing. To tackle these issues, we present TexGen, a novel multi-view sampling and resampling framework for texture generation leveraging a pre-trained text-to-image diffusion model. For view consistent sampling, first of all we maintain a texture map in RGB space that is parameterized by the denoising step and updated after each sampling step of the diffusion model to progressively reduce the view discrepancy. An attention-guided multi-view sampling strategy is exploited to broadcast the appearance information across views. To preserve texture details, we develop a noise resampling technique that aids in the estimation of noise, generating inputs for subsequent denoising steps, as directed by the text prompt and current texture map. Through an extensive amount of qualitative and quantitative evaluations, we demonstrate that our proposed method produces significantly better texture quality for diverse 3D objects with a high degree of view consistency and rich appearance details, outperforming current state-of-the-art methods. Furthermore, our proposed texture generation technique can also be applied to texture editing while preserving the original identity. More experimental results are available at https://dong-huo.github.io/TexGen/
PDF132November 28, 2024