SceneGen: Generación de Escenas 3D a partir de una Imagen en un Único Paso de Propagación hacia Adelante

Resumen

La generación de contenido 3D ha atraído recientemente un interés significativo en la investigación debido a sus aplicaciones en realidad virtual/aumentada (VR/AR) e inteligencia artificial encarnada. En este trabajo, abordamos la tarea desafiante de sintetizar múltiples activos 3D dentro de una sola imagen de escena. Concretamente, nuestras contribuciones son cuatro: (i) presentamos SceneGen, un marco novedoso que toma una imagen de escena y las máscaras de objetos correspondientes como entrada, produciendo simultáneamente múltiples activos 3D con geometría y textura. Notablemente, SceneGen opera sin necesidad de optimización o recuperación de activos; (ii) introducimos un módulo novedoso de agregación de características que integra información local y global de la escena a partir de codificadores visuales y geométricos dentro del módulo de extracción de características. Junto con una cabeza de posición, esto permite la generación de activos 3D y sus posiciones espaciales relativas en un único paso de propagación hacia adelante; (iii) demostramos la extensibilidad directa de SceneGen a escenarios de entrada con múltiples imágenes. A pesar de haber sido entrenado únicamente con entradas de una sola imagen, nuestro diseño arquitectónico permite un mejor rendimiento de generación con entradas de múltiples imágenes; y (iv) evaluaciones cuantitativas y cualitativas extensas confirman la eficiencia y las capacidades robustas de generación de nuestro enfoque. Creemos que este paradigma ofrece una solución novedosa para la generación de contenido 3D de alta calidad, potencialmente avanzando sus aplicaciones prácticas en tareas posteriores. El código y el modelo estarán disponibles públicamente en: https://mengmouxu.github.io/SceneGen.

English

3D content generation has recently attracted significant research interest due to its applications in VR/AR and embodied AI. In this work, we address the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architectural design enables improved generation performance with multi-image inputs; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robust generation abilities of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.

SceneGen: Generación de Escenas 3D a partir de una Imagen en un Único Paso de Propagación hacia Adelante

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

Resumen

Support