Sketch2Scene: Generación Automática de Escenas de Juego Interactivas en 3D a partir de Bocetos Informales del Usuario
Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches
August 8, 2024
Autores: Yongzhi Xu, Yonhon Ng, Yifu Wang, Inkyu Sa, Yunfei Duan, Yang Li, Pan Ji, Hongdong Li
cs.AI
Resumen
La Generación de Contenido 3D es fundamental en muchas aplicaciones de gráficos por computadora, incluyendo videojuegos, producción cinematográfica, realidad virtual y aumentada, etc. Este artículo propone un novedoso enfoque basado en aprendizaje profundo para generar de manera automática escenas de juegos 3D interactivas y jugables, todo a partir de indicaciones informales del usuario como un boceto hecho a mano. La entrada basada en bocetos ofrece una forma natural y conveniente de transmitir la intención de diseño del usuario en el proceso de creación de contenido. Para superar el desafío de la falta de datos en el aprendizaje (es decir, la escasez de grandes conjuntos de datos de escenas 3D), nuestro método aprovecha un modelo de difusión de desenfoque 2D pre-entrenado para generar una imagen 2D de la escena como guía conceptual. En este proceso, adoptamos el modo de proyección isométrica para eliminar las poses de cámara desconocidas al mismo tiempo que obtenemos el diseño de la escena. A partir de la imagen isométrica generada, utilizamos un método pre-entrenado de comprensión de imágenes para segmentar la imagen en partes significativas, como objetos elevados, árboles y edificios, y extraer el diseño de la escena en 2D. Estos segmentos y diseños se introducen posteriormente en un motor de generación de contenido procedural (PCG), como un motor de videojuegos 3D como Unity o Unreal, para crear la escena 3D. La escena 3D resultante puede integrarse perfectamente en un entorno de desarrollo de juegos y es fácilmente jugable. Pruebas exhaustivas demuestran que nuestro método puede generar eficientemente escenas de juegos 3D interactivas y de alta calidad con diseños que siguen de cerca la intención del usuario.
English
3D Content Generation is at the heart of many computer graphics applications,
including video gaming, film-making, virtual and augmented reality, etc. This
paper proposes a novel deep-learning based approach for automatically
generating interactive and playable 3D game scenes, all from the user's casual
prompts such as a hand-drawn sketch. Sketch-based input offers a natural, and
convenient way to convey the user's design intention in the content creation
process. To circumvent the data-deficient challenge in learning (i.e. the lack
of large training data of 3D scenes), our method leverages a pre-trained 2D
denoising diffusion model to generate a 2D image of the scene as the conceptual
guidance. In this process, we adopt the isometric projection mode to factor out
unknown camera poses while obtaining the scene layout. From the generated
isometric image, we use a pre-trained image understanding method to segment the
image into meaningful parts, such as off-ground objects, trees, and buildings,
and extract the 2D scene layout. These segments and layouts are subsequently
fed into a procedural content generation (PCG) engine, such as a 3D video game
engine like Unity or Unreal, to create the 3D scene. The resulting 3D scene can
be seamlessly integrated into a game development environment and is readily
playable. Extensive tests demonstrate that our method can efficiently generate
high-quality and interactive 3D game scenes with layouts that closely follow
the user's intention.Summary
AI-Generated Summary