HiScene: Creazione di Scene 3D Gerarchiche con Generazione di Viste Isometriche

Abstract

La generazione 3D a livello di scena rappresenta una frontiera cruciale nel campo della multimedialità e della computer grafica, tuttavia gli approcci esistenti soffrono di categorie di oggetti limitate o mancano di flessibilità di editing per applicazioni interattive. In questo articolo, presentiamo HiScene, un nuovo framework gerarchico che colma il divario tra la generazione di immagini 2D e la generazione di oggetti 3D, offrendo scene ad alta fedeltà con identità compositive e contenuti estetici. La nostra intuizione chiave è trattare le scene come "oggetti" gerarchici in viste isometriche, dove una stanza funziona come un oggetto complesso che può essere ulteriormente scomposto in elementi manipolabili. Questo approccio gerarchico ci consente di generare contenuti 3D allineati alle rappresentazioni 2D, mantenendo al contempo la struttura compositiva. Per garantire la completezza e l'allineamento spaziale di ciascuna istanza scomposta, sviluppiamo una tecnica di completamento amodale basata sulla diffusione video che gestisce efficacemente le occlusioni e le ombre tra gli oggetti, e introduciamo l'iniezione di priorità di forma per assicurare la coerenza spaziale all'interno della scena. I risultati sperimentali dimostrano che il nostro metodo produce disposizioni di oggetti più naturali e istanze di oggetti complete, adatte per applicazioni interattive, mantenendo al contempo la plausibilità fisica e l'allineamento con gli input dell'utente.

English

Scene-level 3D generation represents a critical frontier in multimedia and computer graphics, yet existing approaches either suffer from limited object categories or lack editing flexibility for interactive applications. In this paper, we present HiScene, a novel hierarchical framework that bridges the gap between 2D image generation and 3D object generation and delivers high-fidelity scenes with compositional identities and aesthetic scene content. Our key insight is treating scenes as hierarchical "objects" under isometric views, where a room functions as a complex object that can be further decomposed into manipulatable items. This hierarchical approach enables us to generate 3D content that aligns with 2D representations while maintaining compositional structure. To ensure completeness and spatial alignment of each decomposed instance, we develop a video-diffusion-based amodal completion technique that effectively handles occlusions and shadows between objects, and introduce shape prior injection to ensure spatial coherence within the scene. Experimental results demonstrate that our method produces more natural object arrangements and complete object instances suitable for interactive applications, while maintaining physical plausibility and alignment with user inputs.

HiScene: Creazione di Scene 3D Gerarchiche con Generazione di Viste Isometriche

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation

Abstract

Support