Yo'City: 자기 비판적 확장을 통한 맞춤형 및 무한 3D 실감 도시 장면 생성
Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
November 24, 2025
저자: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI
초록
현실적인 3D 도시 생성은 가상 현실과 디지털 트윈을 포함한 다양한 응용 분야의 기반이 됩니다. 그러나 기존 방법들은 대부분 단일 확산 모델에 의존하여 학습함으로써 개인화되고 무한한 도시 규모 장면 생성 능력이 제한됩니다. 본 논문에서는 상용 대규모 모델의 추론 및 구성 능력을 활용하여 사용자 맞춤형이면서 무한히 확장 가능한 3D 도시 생성을 가능하게 하는 새로운 에이전트 기반 프레임워크인 Yo'City를 제안합니다. 구체적으로, Yo'City는 먼저 계층적인 "도시-구역-그리드" 구조를 정의하는 하향식 계획 전략을 통해 도시 개념을 수립합니다. 글로벌 플래너는 전체 레이아웃과 잠재적 기능 구역을 결정하는 반면, 로컬 디자이너는 각 구역을 상세한 그리드 수준 설명으로 정제합니다. 이후 그리드 수준의 3D 생성은 아이소메트릭 이미지 합성 "생산-정제-평가" 루프와 이미지-3D 생성 과정을 통해 달성됩니다. 지속적인 도시 진화를 모의하기 위해 Yo'City는 추가로 사용자 상호작용 기반의 관계 가이드 확장 메커니즘을 도입하여, 장면 그래프 기반의 거리 및 의미 인식 레이아웃 최적화를 수행하고 공간적으로 일관된 도시 성장을 보장합니다. 본 방법론을 종합적으로 평가하기 위해 다양한 벤치마크 데이터셋을 구축하고 의미, 기하학, 텍스처, 레이아웃 관점에서 생성 품질을 평가하는 6가지 다차원적 메트릭을 설계했습니다. 폭넓은 실험을 통해 Yo'City가 모든 평가 측면에서 기존 최신 방법들을 일관되게 능가함을 입증했습니다.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.