ChatPaper.aiChatPaper

NuiScene : Exploration de la génération efficace de scènes extérieures illimitées

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

March 20, 2025
Auteurs: Han-Hung Lee, Qinghong Han, Angel X. Chang
cs.AI

Résumé

Dans cet article, nous explorons la tâche de génération de scènes extérieures étendues, allant des châteaux aux gratte-ciels. Contrairement à la génération de scènes intérieures, qui a été l'objet principal des travaux antérieurs, la génération de scènes extérieures présente des défis uniques, notamment des variations importantes dans les hauteurs des scènes et la nécessité d'une méthode capable de produire rapidement de vastes paysages. Pour répondre à cela, nous proposons une approche efficace qui encode des segments de scènes sous forme d'ensembles de vecteurs uniformes, offrant une meilleure compression et performance que les latents structurés spatialement utilisés dans les méthodes précédentes. De plus, nous entraînons un modèle explicite d'extension pour une génération illimitée, ce qui améliore la cohérence par rapport aux schémas de rééchantillonnage basés sur l'inpainting tout en accélérant la génération en éliminant les étapes de diffusion supplémentaires. Pour faciliter cette tâche, nous avons constitué NuiScene43, un ensemble de scènes petit mais de haute qualité, prétraité pour un entraînement conjoint. Notamment, lorsqu'il est entraîné sur des scènes de styles variés, notre modèle peut fusionner différents environnements, tels que des maisons rurales et des gratte-ciels urbains, au sein d'une même scène, mettant en évidence le potentiel de notre processus de curation pour exploiter des scènes hétérogènes dans un entraînement conjoint.
English
In this paper, we explore the task of generating expansive outdoor scenes, ranging from castles to high-rises. Unlike indoor scene generation, which has been a primary focus of prior work, outdoor scene generation presents unique challenges, including wide variations in scene heights and the need for a method capable of rapidly producing large landscapes. To address this, we propose an efficient approach that encodes scene chunks as uniform vector sets, offering better compression and performance than the spatially structured latents used in prior methods. Furthermore, we train an explicit outpainting model for unbounded generation, which improves coherence compared to prior resampling-based inpainting schemes while also speeding up generation by eliminating extra diffusion steps. To facilitate this task, we curate NuiScene43, a small but high-quality set of scenes, preprocessed for joint training. Notably, when trained on scenes of varying styles, our model can blend different environments, such as rural houses and city skyscrapers, within the same scene, highlighting the potential of our curation process to leverage heterogeneous scenes for joint training.

Summary

AI-Generated Summary

PDF92March 21, 2025