ShowRoom3D: Generazione di Stanze 3D di Alta Qualità da Testo Utilizzando Prior 3D

Abstract

Presentiamo ShowRoom3D, un approccio in tre fasi per la generazione di scene 3D su scala ambientale di alta qualità a partire da testi. I metodi precedenti che utilizzano prior di diffusione 2D per ottimizzare i campi di radianza neurale nella generazione di scene su scala ambientale hanno mostrato una qualità insoddisfacente. Ciò è principalmente attribuito alle limitazioni dei prior 2D, che mancano di consapevolezza 3D, e ai vincoli nella metodologia di addestramento. In questo articolo, utilizziamo un prior di diffusione 3D, MVDiffusion, per ottimizzare la scena 3D su scala ambientale. I nostri contributi si articolano in due aspetti. In primo luogo, proponiamo un processo di selezione progressiva delle viste per ottimizzare il NeRF. Questo implica la divisione del processo di addestramento in tre fasi, espandendo gradualmente l'ambito di campionamento della telecamera. In secondo luogo, proponiamo il metodo di trasformazione della posa nella seconda fase. Ciò garantirà che MVDiffusion fornisca una guida precisa delle viste. Di conseguenza, ShowRoom3D consente la generazione di ambienti con una migliore integrità strutturale, una maggiore chiarezza da qualsiasi angolazione, una ridotta ripetizione dei contenuti e una maggiore coerenza tra diverse prospettive. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente gli approcci all'avanguardia con un ampio margine in termini di studio utente.

English

We introduce ShowRoom3D, a three-stage approach for generating high-quality 3D room-scale scenes from texts. Previous methods using 2D diffusion priors to optimize neural radiance fields for generating room-scale scenes have shown unsatisfactory quality. This is primarily attributed to the limitations of 2D priors lacking 3D awareness and constraints in the training methodology. In this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D room-scale scene. Our contributions are in two aspects. Firstly, we propose a progressive view selection process to optimize NeRF. This involves dividing the training process into three stages, gradually expanding the camera sampling scope. Secondly, we propose the pose transformation method in the second stage. It will ensure MVDiffusion provide the accurate view guidance. As a result, ShowRoom3D enables the generation of rooms with improved structural integrity, enhanced clarity from any view, reduced content repetition, and higher consistency across different perspectives. Extensive experiments demonstrate that our method, significantly outperforms state-of-the-art approaches by a large margin in terms of user study.

ShowRoom3D: Generazione di Stanze 3D di Alta Qualità da Testo Utilizzando Prior 3D

ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors

Abstract

Support