Yo'City: Персонализированная и безграничная генерация фотореалистичных 3D-городских сцен с помощью самокритичного расширения
Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
November 24, 2025
Авторы: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI
Аннотация
Реалистичная генерация 3D-городов является фундаментальной задачей для широкого спектра приложений, включая виртуальную реальность и цифровые двойники. Однако большинство существующих методов полагаются на обучение единой диффузионной модели, что ограничивает их способность генерировать персонализированные и неограниченные городские сцены. В данной статье мы представляем Yo'City — новую агентную архитектуру, которая обеспечивает настраиваемую пользователем и бесконечно расширяемую генерацию 3D-городов за счёт использования возможностей рассуждения и композиции готовых больших моделей. В частности, Yo'City сначала концептуализирует город с помощью стратегии нисходящего планирования, определяя иерархическую структуру «Город — Район — Квартал». Глобальный планировщик определяет общую компоновку и потенциальные функциональные районы, в то время как локальный дизайнер детализирует каждый район описаниями на уровне кварталов. Затем 3D-генерация на уровне квартала достигается с помощью цикла синтеза изометрических изображений «создание — уточнение — оценка», за которым следует генерация 3D из изображений. Для моделирования непрерывной эволюции города Yo'City дополнительно вводит механизм расширения, управляемый пользователем и ориентированный на отношения, который выполняет оптимизацию компоновки с учётом расстояния и семантики на основе графа сцен, обеспечивая пространственно согласованный рост города. Для всесторонней оценки нашего метода мы создали разнообразный эталонный набор данных и разработали шесть многомерных метрик, оценивающих качество генерации с точки зрения семантики, геометрии, текстуры и компоновки. Многочисленные эксперименты демонстрируют, что Yo'City стабильно превосходит существующие передовые методы по всем аспектам оценки.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.