FlexiTex: Verbesserung der Texturerzeugung mit visueller Anleitung

Zusammenfassung

Aktuelle Methoden zur Texturerzeugung erzielen beeindruckende Ergebnisse aufgrund des leistungsstarken generativen Priors, den sie aus groß angelegten Text-zu-Bild-Diffusionsmodellen nutzen. Allerdings sind abstrakte textuelle Anweisungen begrenzt in der Bereitstellung globaler texturaler oder formaler Informationen, was dazu führt, dass die Texturerzeugungsmethoden unscharfe oder inkonsistente Muster erzeugen. Um dies zu bewältigen, präsentieren wir FlexiTex, das reichhaltige Informationen über visuelle Anleitungen einbettet, um eine qualitativ hochwertige Textur zu erzeugen. Der Kern von FlexiTex ist das Modul zur Verbesserung der visuellen Anleitung, das spezifischere Informationen aus visuellen Anleitungen integriert, um Mehrdeutigkeiten in der Textanweisung zu reduzieren und hochfrequente Details zu bewahren. Zur weiteren Verbesserung der visuellen Anleitung führen wir ein Modul zur richtungsabhängigen Anpassung ein, das automatisch Richtungsanweisungen basierend auf verschiedenen Kamerapositionen entwirft, um das Janus-Problem zu vermeiden und semantisch globale Konsistenz zu wahren. Durch die visuelle Anleitung erzielt FlexiTex quantitativ und qualitativ überzeugende Ergebnisse und zeigt sein Potenzial zur Weiterentwicklung der Texturerzeugung für Anwendungen in der realen Welt.

English

Recent texture generation methods achieve impressive results due to the powerful generative prior they leverage from large-scale text-to-image diffusion models. However, abstract textual prompts are limited in providing global textural or shape information, which results in the texture generation methods producing blurry or inconsistent patterns. To tackle this, we present FlexiTex, embedding rich information via visual guidance to generate a high-quality texture. The core of FlexiTex is the Visual Guidance Enhancement module, which incorporates more specific information from visual guidance to reduce ambiguity in the text prompt and preserve high-frequency details. To further enhance the visual guidance, we introduce a Direction-Aware Adaptation module that automatically designs direction prompts based on different camera poses, avoiding the Janus problem and maintaining semantically global consistency. Benefiting from the visual guidance, FlexiTex produces quantitatively and qualitatively sound results, demonstrating its potential to advance texture generation for real-world applications.