HiScene: Creazione di Scene 3D Gerarchiche con Generazione di Viste Isometriche
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation
April 17, 2025
Autori: Wenqi Dong, Bangbang Yang, Zesong Yang, Yuan Li, Tao Hu, Hujun Bao, Yuewen Ma, Zhaopeng Cui
cs.AI
Abstract
La generazione 3D a livello di scena rappresenta una frontiera cruciale nel campo della multimedialità e della computer grafica, tuttavia gli approcci esistenti soffrono di categorie di oggetti limitate o mancano di flessibilità di editing per applicazioni interattive. In questo articolo, presentiamo HiScene, un nuovo framework gerarchico che colma il divario tra la generazione di immagini 2D e la generazione di oggetti 3D, offrendo scene ad alta fedeltà con identità compositive e contenuti estetici. La nostra intuizione chiave è trattare le scene come "oggetti" gerarchici in viste isometriche, dove una stanza funziona come un oggetto complesso che può essere ulteriormente scomposto in elementi manipolabili. Questo approccio gerarchico ci consente di generare contenuti 3D allineati alle rappresentazioni 2D, mantenendo al contempo la struttura compositiva. Per garantire la completezza e l'allineamento spaziale di ciascuna istanza scomposta, sviluppiamo una tecnica di completamento amodale basata sulla diffusione video che gestisce efficacemente le occlusioni e le ombre tra gli oggetti, e introduciamo l'iniezione di priorità di forma per assicurare la coerenza spaziale all'interno della scena. I risultati sperimentali dimostrano che il nostro metodo produce disposizioni di oggetti più naturali e istanze di oggetti complete, adatte per applicazioni interattive, mantenendo al contempo la plausibilità fisica e l'allineamento con gli input dell'utente.
English
Scene-level 3D generation represents a critical frontier in multimedia and
computer graphics, yet existing approaches either suffer from limited object
categories or lack editing flexibility for interactive applications. In this
paper, we present HiScene, a novel hierarchical framework that bridges the gap
between 2D image generation and 3D object generation and delivers high-fidelity
scenes with compositional identities and aesthetic scene content. Our key
insight is treating scenes as hierarchical "objects" under isometric views,
where a room functions as a complex object that can be further decomposed into
manipulatable items. This hierarchical approach enables us to generate 3D
content that aligns with 2D representations while maintaining compositional
structure. To ensure completeness and spatial alignment of each decomposed
instance, we develop a video-diffusion-based amodal completion technique that
effectively handles occlusions and shadows between objects, and introduce shape
prior injection to ensure spatial coherence within the scene. Experimental
results demonstrate that our method produces more natural object arrangements
and complete object instances suitable for interactive applications, while
maintaining physical plausibility and alignment with user inputs.Summary
AI-Generated Summary