NuiScene: Исследование эффективной генерации неограниченных открытых сцен
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
March 20, 2025
Авторы: Han-Hung Lee, Qinghong Han, Angel X. Chang
cs.AI
Аннотация
В данной статье мы исследуем задачу генерации масштабных открытых сцен, начиная от замков и заканчивая небоскребами. В отличие от генерации интерьеров, которая была основным фокусом предыдущих работ, генерация открытых сцен представляет уникальные сложности, включая значительные вариации в высоте сцен и необходимость метода, способного быстро создавать большие ландшафты. Для решения этих задач мы предлагаем эффективный подход, который кодирует фрагменты сцен в виде однородных векторных наборов, обеспечивая лучшее сжатие и производительность по сравнению с пространственно структурированными латентными представлениями, используемыми в предыдущих методах. Кроме того, мы обучаем явную модель для неограниченной генерации (outpainting), которая улучшает согласованность по сравнению с предыдущими схемами на основе повторной выборки (inpainting), а также ускоряет генерацию за счет исключения дополнительных шагов диффузии. Для облегчения этой задачи мы создали NuiScene43 — небольшой, но высококачественный набор сцен, предварительно обработанных для совместного обучения. Примечательно, что при обучении на сценах различных стилей наша модель способна объединять разные среды, такие как сельские дома и городские небоскребы, в одной сцене, что подчеркивает потенциал нашего процесса подготовки данных для использования разнородных сцен в совместном обучении.
English
In this paper, we explore the task of generating expansive outdoor scenes,
ranging from castles to high-rises. Unlike indoor scene generation, which has
been a primary focus of prior work, outdoor scene generation presents unique
challenges, including wide variations in scene heights and the need for a
method capable of rapidly producing large landscapes. To address this, we
propose an efficient approach that encodes scene chunks as uniform vector sets,
offering better compression and performance than the spatially structured
latents used in prior methods. Furthermore, we train an explicit outpainting
model for unbounded generation, which improves coherence compared to prior
resampling-based inpainting schemes while also speeding up generation by
eliminating extra diffusion steps. To facilitate this task, we curate
NuiScene43, a small but high-quality set of scenes, preprocessed for joint
training. Notably, when trained on scenes of varying styles, our model can
blend different environments, such as rural houses and city skyscrapers, within
the same scene, highlighting the potential of our curation process to leverage
heterogeneous scenes for joint training.Summary
AI-Generated Summary