NuiScene: Esplorazione della Generazione Efficiente di Scene Esterne Illimitate

Abstract

In questo articolo, esploriamo il compito di generare scene esterne estese, che vanno dai castelli ai grattacieli. A differenza della generazione di scene interne, che è stata il focus principale di lavori precedenti, la generazione di scene esterne presenta sfide uniche, tra cui ampie variazioni nelle altezze delle scene e la necessità di un metodo in grado di produrre rapidamente grandi paesaggi. Per affrontare ciò, proponiamo un approccio efficiente che codifica porzioni di scene come insiemi di vettori uniformi, offrendo una migliore compressione e prestazioni rispetto ai latenti strutturati spazialmente utilizzati nei metodi precedenti. Inoltre, addestriamo un modello esplicito di outpainting per la generazione illimitata, che migliora la coerenza rispetto ai precedenti schemi di inpainting basati sul ricampionamento, accelerando al contempo la generazione eliminando passaggi aggiuntivi di diffusione. Per facilitare questo compito, abbiamo curato NuiScene43, un insieme piccolo ma di alta qualità di scene, preelaborate per l'addestramento congiunto. È degno di nota che, quando addestrato su scene di stili variabili, il nostro modello può fondere ambienti diversi, come case rurali e grattacieli cittadini, all'interno della stessa scena, evidenziando il potenziale del nostro processo di cura per sfruttare scene eterogenee per l'addestramento congiunto.

English

In this paper, we explore the task of generating expansive outdoor scenes, ranging from castles to high-rises. Unlike indoor scene generation, which has been a primary focus of prior work, outdoor scene generation presents unique challenges, including wide variations in scene heights and the need for a method capable of rapidly producing large landscapes. To address this, we propose an efficient approach that encodes scene chunks as uniform vector sets, offering better compression and performance than the spatially structured latents used in prior methods. Furthermore, we train an explicit outpainting model for unbounded generation, which improves coherence compared to prior resampling-based inpainting schemes while also speeding up generation by eliminating extra diffusion steps. To facilitate this task, we curate NuiScene43, a small but high-quality set of scenes, preprocessed for joint training. Notably, when trained on scenes of varying styles, our model can blend different environments, such as rural houses and city skyscrapers, within the same scene, highlighting the potential of our curation process to leverage heterogeneous scenes for joint training.

NuiScene: Esplorazione della Generazione Efficiente di Scene Esterne Illimitate

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

Abstract

Support