Sketch2Scene: Generazione Automatica di Scene Interattive 3D per Giochi a Partire da Schizzi Informali degli Utenti
Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches
August 8, 2024
Autori: Yongzhi Xu, Yonhon Ng, Yifu Wang, Inkyu Sa, Yunfei Duan, Yang Li, Pan Ji, Hongdong Li
cs.AI
Abstract
La generazione di contenuti 3D è al centro di molte applicazioni di computer grafica, inclusi i videogiochi, la produzione cinematografica, la realtà virtuale e aumentata, ecc. Questo articolo propone un nuovo approccio basato sul deep learning per generare automaticamente scene di gioco 3D interattive e giocabili, partendo da prompt casuali dell'utente come uno schizzo disegnato a mano. L'input basato su schizzi offre un modo naturale e conveniente per trasmettere l'intenzione progettuale dell'utente nel processo di creazione dei contenuti. Per superare la sfida della carenza di dati nell'apprendimento (cioè la mancanza di grandi dataset di addestramento per scene 3D), il nostro metodo sfrutta un modello di diffusione di denoising 2D pre-addestrato per generare un'immagine 2D della scena come guida concettuale. In questo processo, adottiamo la modalità di proiezione isometrica per escludere le pose della camera sconosciute mentre otteniamo il layout della scena. Dall'immagine isometrica generata, utilizziamo un metodo di comprensione delle immagini pre-addestrato per segmentare l'immagine in parti significative, come oggetti fuori terra, alberi e edifici, e per estrarre il layout 2D della scena. Questi segmenti e layout vengono successivamente inseriti in un motore di generazione procedurale di contenuti (PCG), come un motore di videogiochi 3D come Unity o Unreal, per creare la scena 3D. La scena 3D risultante può essere integrata senza soluzione di continuità in un ambiente di sviluppo di giochi ed è immediatamente giocabile. Test estensivi dimostrano che il nostro metodo può generare in modo efficiente scene di gioco 3D di alta qualità e interattive, con layout che seguono da vicino l'intenzione dell'utente.
English
3D Content Generation is at the heart of many computer graphics applications,
including video gaming, film-making, virtual and augmented reality, etc. This
paper proposes a novel deep-learning based approach for automatically
generating interactive and playable 3D game scenes, all from the user's casual
prompts such as a hand-drawn sketch. Sketch-based input offers a natural, and
convenient way to convey the user's design intention in the content creation
process. To circumvent the data-deficient challenge in learning (i.e. the lack
of large training data of 3D scenes), our method leverages a pre-trained 2D
denoising diffusion model to generate a 2D image of the scene as the conceptual
guidance. In this process, we adopt the isometric projection mode to factor out
unknown camera poses while obtaining the scene layout. From the generated
isometric image, we use a pre-trained image understanding method to segment the
image into meaningful parts, such as off-ground objects, trees, and buildings,
and extract the 2D scene layout. These segments and layouts are subsequently
fed into a procedural content generation (PCG) engine, such as a 3D video game
engine like Unity or Unreal, to create the 3D scene. The resulting 3D scene can
be seamlessly integrated into a game development environment and is readily
playable. Extensive tests demonstrate that our method can efficiently generate
high-quality and interactive 3D game scenes with layouts that closely follow
the user's intention.