DreamPolisher: Verso una Generazione Testo-3D di Alta Qualità tramite Diffusione Geometrica
DreamPolisher: Towards High-Quality Text-to-3D Generation via Geometric Diffusion
March 25, 2024
Autori: Yuanze Lin, Ronald Clark, Philip Torr
cs.AI
Abstract
Presentiamo DreamPolisher, un metodo innovativo basato su Gaussian Splatting con guida geometrica, progettato per apprendere la coerenza tra diverse viste e dettagli intricati a partire da descrizioni testuali. Sebbene i recenti progressi nei metodi di generazione da testo a 3D siano promettenti, le tecniche prevalenti spesso non riescono a garantire coerenza tra le viste e ricchezza testurale. Questo problema è particolarmente evidente nei metodi che lavorano esclusivamente con input testuali. Per affrontare questa sfida, proponiamo un approccio in due fasi basato su Gaussian Splatting che impone coerenza geometrica tra le viste. Inizialmente, una generazione 3D approssimativa viene raffinata attraverso un'ottimizzazione geometrica. Successivamente, utilizziamo un perfezionatore guidato da ControlNet accoppiato con un termine di coerenza geometrica per migliorare sia la fedeltà delle texture che la coerenza complessiva dell'asset 3D generato. Valutazioni empiriche su una varietà di prompt testuali che coprono diverse categorie di oggetti dimostrano l'efficacia di DreamPolisher nel generare oggetti 3D coerenti e realistici, allineandosi strettamente con la semantica delle istruzioni testuali.
English
We present DreamPolisher, a novel Gaussian Splatting based method with
geometric guidance, tailored to learn cross-view consistency and intricate
detail from textual descriptions. While recent progress on text-to-3D
generation methods have been promising, prevailing methods often fail to ensure
view-consistency and textural richness. This problem becomes particularly
noticeable for methods that work with text input alone. To address this, we
propose a two-stage Gaussian Splatting based approach that enforces geometric
consistency among views. Initially, a coarse 3D generation undergoes refinement
via geometric optimization. Subsequently, we use a ControlNet driven refiner
coupled with the geometric consistency term to improve both texture fidelity
and overall consistency of the generated 3D asset. Empirical evaluations across
diverse textual prompts spanning various object categories demonstrate the
efficacy of DreamPolisher in generating consistent and realistic 3D objects,
aligning closely with the semantics of the textual instructions.