NuiScene: Esplorazione della Generazione Efficiente di Scene Esterne Illimitate
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
March 20, 2025
Autori: Han-Hung Lee, Qinghong Han, Angel X. Chang
cs.AI
Abstract
In questo articolo, esploriamo il compito di generare scene esterne estese, che vanno dai castelli ai grattacieli. A differenza della generazione di scene interne, che è stata il focus principale di lavori precedenti, la generazione di scene esterne presenta sfide uniche, tra cui ampie variazioni nelle altezze delle scene e la necessità di un metodo in grado di produrre rapidamente grandi paesaggi. Per affrontare ciò, proponiamo un approccio efficiente che codifica porzioni di scene come insiemi di vettori uniformi, offrendo una migliore compressione e prestazioni rispetto ai latenti strutturati spazialmente utilizzati nei metodi precedenti. Inoltre, addestriamo un modello esplicito di outpainting per la generazione illimitata, che migliora la coerenza rispetto ai precedenti schemi di inpainting basati sul ricampionamento, accelerando al contempo la generazione eliminando passaggi aggiuntivi di diffusione. Per facilitare questo compito, abbiamo curato NuiScene43, un insieme piccolo ma di alta qualità di scene, preelaborate per l'addestramento congiunto. È degno di nota che, quando addestrato su scene di stili variabili, il nostro modello può fondere ambienti diversi, come case rurali e grattacieli cittadini, all'interno della stessa scena, evidenziando il potenziale del nostro processo di cura per sfruttare scene eterogenee per l'addestramento congiunto.
English
In this paper, we explore the task of generating expansive outdoor scenes,
ranging from castles to high-rises. Unlike indoor scene generation, which has
been a primary focus of prior work, outdoor scene generation presents unique
challenges, including wide variations in scene heights and the need for a
method capable of rapidly producing large landscapes. To address this, we
propose an efficient approach that encodes scene chunks as uniform vector sets,
offering better compression and performance than the spatially structured
latents used in prior methods. Furthermore, we train an explicit outpainting
model for unbounded generation, which improves coherence compared to prior
resampling-based inpainting schemes while also speeding up generation by
eliminating extra diffusion steps. To facilitate this task, we curate
NuiScene43, a small but high-quality set of scenes, preprocessed for joint
training. Notably, when trained on scenes of varying styles, our model can
blend different environments, such as rural houses and city skyscrapers, within
the same scene, highlighting the potential of our curation process to leverage
heterogeneous scenes for joint training.