FlexiTex : Amélioration de la génération de textures avec un guidage visuel

Résumé

Les méthodes récentes de génération de textures obtiennent des résultats impressionnants grâce au puissant a priori génératif qu'elles exploitent à partir de modèles de diffusion texte-image à grande échelle. Cependant, les instructions textuelles abstraites sont limitées dans la fourniture d'informations texturales ou de forme globales, ce qui entraîne les méthodes de génération de textures produisant des motifs flous ou incohérents. Pour résoudre ce problème, nous présentons FlexiTex, qui intègre des informations riches via un guidage visuel pour générer une texture de haute qualité. Le cœur de FlexiTex est le module d'amélioration du guidage visuel, qui intègre des informations plus spécifiques provenant du guidage visuel pour réduire l'ambiguïté dans l'instruction textuelle et préserver les détails haute fréquence. Pour renforcer davantage le guidage visuel, nous introduisons un module d'adaptation sensible à la direction qui conçoit automatiquement des instructions de direction basées sur différentes poses de caméra, évitant le problème de Janus et maintenant une cohérence sémantique globale. Bénéficiant du guidage visuel, FlexiTex produit des résultats quantitativement et qualitativement solides, démontrant son potentiel pour faire progresser la génération de textures pour des applications du monde réel.

English

Recent texture generation methods achieve impressive results due to the powerful generative prior they leverage from large-scale text-to-image diffusion models. However, abstract textual prompts are limited in providing global textural or shape information, which results in the texture generation methods producing blurry or inconsistent patterns. To tackle this, we present FlexiTex, embedding rich information via visual guidance to generate a high-quality texture. The core of FlexiTex is the Visual Guidance Enhancement module, which incorporates more specific information from visual guidance to reduce ambiguity in the text prompt and preserve high-frequency details. To further enhance the visual guidance, we introduce a Direction-Aware Adaptation module that automatically designs direction prompts based on different camera poses, avoiding the Janus problem and maintaining semantically global consistency. Benefiting from the visual guidance, FlexiTex produces quantitatively and qualitatively sound results, demonstrating its potential to advance texture generation for real-world applications.