NuiScene: Onderzoek naar efficiënte generatie van onbegrensde buitenomgevingen

Samenvatting

In dit artikel onderzoeken we de taak van het genereren van uitgestrekte buitenruimtes, variërend van kastelen tot wolkenkrabbers. In tegenstelling tot het genereren van binnenruimtes, wat een primaire focus was van eerder werk, brengt het genereren van buitenruimtes unieke uitdagingen met zich mee, waaronder grote variaties in scènehoogtes en de behoefte aan een methode die in staat is om snel grote landschappen te produceren. Om dit aan te pakken, stellen we een efficiënte aanpak voor die scènedelen codeert als uniforme vectorsets, wat betere compressie en prestaties biedt dan de ruimtelijk gestructureerde latente representaties die in eerdere methoden werden gebruikt. Bovendien trainen we een expliciet outpaintingsmodel voor onbegrensde generatie, wat de samenhang verbetert in vergelijking met eerdere resampling-gebaseerde inpaintingmethoden, terwijl het ook de generatie versnelt door extra diffusiestappen te elimineren. Om deze taak te faciliteren, hebben we NuiScene43 samengesteld, een kleine maar hoogwaardige set van scènes, voorbewerkt voor gezamenlijke training. Opmerkelijk is dat, wanneer getraind op scènes van verschillende stijlen, ons model verschillende omgevingen, zoals landelijke huizen en stedelijke wolkenkrabbers, binnen dezelfde scène kan combineren, wat het potentieel van ons curatieproces benadrukt om heterogene scènes te benutten voor gezamenlijke training.

English

In this paper, we explore the task of generating expansive outdoor scenes, ranging from castles to high-rises. Unlike indoor scene generation, which has been a primary focus of prior work, outdoor scene generation presents unique challenges, including wide variations in scene heights and the need for a method capable of rapidly producing large landscapes. To address this, we propose an efficient approach that encodes scene chunks as uniform vector sets, offering better compression and performance than the spatially structured latents used in prior methods. Furthermore, we train an explicit outpainting model for unbounded generation, which improves coherence compared to prior resampling-based inpainting schemes while also speeding up generation by eliminating extra diffusion steps. To facilitate this task, we curate NuiScene43, a small but high-quality set of scenes, preprocessed for joint training. Notably, when trained on scenes of varying styles, our model can blend different environments, such as rural houses and city skyscrapers, within the same scene, highlighting the potential of our curation process to leverage heterogeneous scenes for joint training.

NuiScene: Onderzoek naar efficiënte generatie van onbegrensde buitenomgevingen

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

Samenvatting

Support