NuiScene: Explorando la Generación Eficiente de Escenarios Exteriores Ilimitados
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
March 20, 2025
Autores: Han-Hung Lee, Qinghong Han, Angel X. Chang
cs.AI
Resumen
En este artículo, exploramos la tarea de generar escenas exteriores expansivas, que van desde castillos hasta rascacielos. A diferencia de la generación de escenas interiores, que ha sido el foco principal de trabajos previos, la generación de escenas exteriores presenta desafíos únicos, incluyendo amplias variaciones en las alturas de las escenas y la necesidad de un método capaz de producir rápidamente grandes paisajes. Para abordar esto, proponemos un enfoque eficiente que codifica fragmentos de escenas como conjuntos de vectores uniformes, ofreciendo una mejor compresión y rendimiento que los latentes espacialmente estructurados utilizados en métodos anteriores. Además, entrenamos un modelo explícito de "outpainting" para generación ilimitada, que mejora la coherencia en comparación con los esquemas de "inpainting" basados en remuestreo previos, al mismo tiempo que acelera la generación al eliminar pasos adicionales de difusión. Para facilitar esta tarea, hemos creado NuiScene43, un conjunto pequeño pero de alta calidad de escenas, preprocesadas para entrenamiento conjunto. Notablemente, cuando se entrena con escenas de diversos estilos, nuestro modelo puede combinar diferentes entornos, como casas rurales y rascacielos urbanos, dentro de la misma escena, destacando el potencial de nuestro proceso de curación para aprovechar escenas heterogéneas en el entrenamiento conjunto.
English
In this paper, we explore the task of generating expansive outdoor scenes,
ranging from castles to high-rises. Unlike indoor scene generation, which has
been a primary focus of prior work, outdoor scene generation presents unique
challenges, including wide variations in scene heights and the need for a
method capable of rapidly producing large landscapes. To address this, we
propose an efficient approach that encodes scene chunks as uniform vector sets,
offering better compression and performance than the spatially structured
latents used in prior methods. Furthermore, we train an explicit outpainting
model for unbounded generation, which improves coherence compared to prior
resampling-based inpainting schemes while also speeding up generation by
eliminating extra diffusion steps. To facilitate this task, we curate
NuiScene43, a small but high-quality set of scenes, preprocessed for joint
training. Notably, when trained on scenes of varying styles, our model can
blend different environments, such as rural houses and city skyscrapers, within
the same scene, highlighting the potential of our curation process to leverage
heterogeneous scenes for joint training.Summary
AI-Generated Summary