NuiScene: Explorando a Geração Eficiente de Cenários Externos Ilimitados
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
March 20, 2025
Autores: Han-Hung Lee, Qinghong Han, Angel X. Chang
cs.AI
Resumo
Neste artigo, exploramos a tarefa de gerar cenas externas expansivas, variando de castelos a arranha-céus. Diferente da geração de cenas internas, que tem sido o foco principal de trabalhos anteriores, a geração de cenas externas apresenta desafios únicos, incluindo grandes variações nas alturas das cenas e a necessidade de um método capaz de produzir rapidamente grandes paisagens. Para abordar isso, propomos uma abordagem eficiente que codifica partes da cena como conjuntos de vetores uniformes, oferecendo melhor compressão e desempenho do que os latentes espacialmente estruturados usados em métodos anteriores. Além disso, treinamos um modelo explícito de outpainting para geração ilimitada, que melhora a coerência em comparação com esquemas anteriores de inpainting baseados em reamostragem, ao mesmo tempo em que acelera a geração ao eliminar etapas extras de difusão. Para facilitar essa tarefa, criamos o NuiScene43, um conjunto pequeno, mas de alta qualidade, de cenas pré-processadas para treinamento conjunto. Notavelmente, quando treinado em cenas de estilos variados, nosso modelo pode combinar diferentes ambientes, como casas rurais e arranha-céus urbanos, dentro da mesma cena, destacando o potencial do nosso processo de curadoria para aproveitar cenas heterogêneas para treinamento conjunto.
English
In this paper, we explore the task of generating expansive outdoor scenes,
ranging from castles to high-rises. Unlike indoor scene generation, which has
been a primary focus of prior work, outdoor scene generation presents unique
challenges, including wide variations in scene heights and the need for a
method capable of rapidly producing large landscapes. To address this, we
propose an efficient approach that encodes scene chunks as uniform vector sets,
offering better compression and performance than the spatially structured
latents used in prior methods. Furthermore, we train an explicit outpainting
model for unbounded generation, which improves coherence compared to prior
resampling-based inpainting schemes while also speeding up generation by
eliminating extra diffusion steps. To facilitate this task, we curate
NuiScene43, a small but high-quality set of scenes, preprocessed for joint
training. Notably, when trained on scenes of varying styles, our model can
blend different environments, such as rural houses and city skyscrapers, within
the same scene, highlighting the potential of our curation process to leverage
heterogeneous scenes for joint training.Summary
AI-Generated Summary