DreamPolisher : Vers une génération de texte-à-3D de haute qualité via la diffusion géométrique
DreamPolisher: Towards High-Quality Text-to-3D Generation via Geometric Diffusion
March 25, 2024
papers.authors: Yuanze Lin, Ronald Clark, Philip Torr
cs.AI
papers.abstract
Nous présentons DreamPolisher, une nouvelle méthode basée sur le Gaussian Splatting avec guidage géométrique, conçue pour apprendre la cohérence inter-vues et les détails complexes à partir de descriptions textuelles. Bien que les progrès récents des méthodes de génération de texte-à-3D soient prometteurs, les méthodes actuelles échouent souvent à garantir la cohérence des vues et la richesse texturale. Ce problème devient particulièrement visible pour les méthodes qui fonctionnent uniquement avec une entrée textuelle. Pour y remédier, nous proposons une approche en deux étapes basée sur le Gaussian Splatting qui impose une cohérence géométrique entre les vues. Initialement, une génération 3D grossière est affinée via une optimisation géométrique. Ensuite, nous utilisons un raffineur piloté par ControlNet couplé à un terme de cohérence géométrique pour améliorer à la fois la fidélité des textures et la cohérence globale de l'asset 3D généré. Les évaluations empiriques sur divers prompts textuels couvrant différentes catégories d'objets démontrent l'efficacité de DreamPolisher à générer des objets 3D cohérents et réalistes, en alignement étroit avec la sémantique des instructions textuelles.
English
We present DreamPolisher, a novel Gaussian Splatting based method with
geometric guidance, tailored to learn cross-view consistency and intricate
detail from textual descriptions. While recent progress on text-to-3D
generation methods have been promising, prevailing methods often fail to ensure
view-consistency and textural richness. This problem becomes particularly
noticeable for methods that work with text input alone. To address this, we
propose a two-stage Gaussian Splatting based approach that enforces geometric
consistency among views. Initially, a coarse 3D generation undergoes refinement
via geometric optimization. Subsequently, we use a ControlNet driven refiner
coupled with the geometric consistency term to improve both texture fidelity
and overall consistency of the generated 3D asset. Empirical evaluations across
diverse textual prompts spanning various object categories demonstrate the
efficacy of DreamPolisher in generating consistent and realistic 3D objects,
aligning closely with the semantics of the textual instructions.