UniDream: Unificazione dei Priori di Diffusione per la Generazione di Oggetti 3D Rilluminabili da Testo

Abstract

I recenti progressi nella tecnologia di generazione da testo a 3D hanno significativamente migliorato la conversione di descrizioni testuali in oggetti 3D immaginativi, ben strutturati geometricamente e con texture raffinate. Nonostante questi sviluppi, una limitazione prevalente deriva dall'uso di dati RGB nei modelli di diffusione o ricostruzione, che spesso risultano in modelli con effetti di illuminazione e ombre intrinseci che compromettono il loro realismo, limitando così la loro utilizzabilità in applicazioni che richiedono capacità accurate di riluminazione. Per colmare questa lacuna, presentiamo UniDream, un framework di generazione da testo a 3D che incorpora priorità di diffusione unificate. Il nostro approccio si compone di tre componenti principali: (1) un processo di addestramento in due fasi per ottenere modelli di diffusione e ricostruzione multi-vista allineati con albedo e normali, (2) una procedura di generazione progressiva per la geometria e le texture di albedo basata su Score Distillation Sample (SDS) utilizzando i modelli di ricostruzione e diffusione addestrati, e (3) un'applicazione innovativa di SDS per finalizzare la generazione PBR mantenendo un albedo fisso basato sul modello Stable Diffusion. Valutazioni estensive dimostrano che UniDream supera i metodi esistenti nella generazione di oggetti 3D con texture di albedo più nitide, superfici più lisce, realismo migliorato e capacità superiori di riluminazione.

English

Recent advancements in text-to-3D generation technology have significantly advanced the conversion of textual descriptions into imaginative well-geometrical and finely textured 3D objects. Despite these developments, a prevalent limitation arises from the use of RGB data in diffusion or reconstruction models, which often results in models with inherent lighting and shadows effects that detract from their realism, thereby limiting their usability in applications that demand accurate relighting capabilities. To bridge this gap, we present UniDream, a text-to-3D generation framework by incorporating unified diffusion priors. Our approach consists of three main components: (1) a dual-phase training process to get albedo-normal aligned multi-view diffusion and reconstruction models, (2) a progressive generation procedure for geometry and albedo-textures based on Score Distillation Sample (SDS) using the trained reconstruction and diffusion models, and (3) an innovative application of SDS for finalizing PBR generation while keeping a fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate that UniDream surpasses existing methods in generating 3D objects with clearer albedo textures, smoother surfaces, enhanced realism, and superior relighting capabilities.

UniDream: Unificazione dei Priori di Diffusione per la Generazione di Oggetti 3D Rilluminabili da Testo

UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Abstract

Support