SceneGen: Generación de Escenas 3D a partir de una Imagen en un Único Paso de Propagación hacia Adelante
SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass
August 21, 2025
Autores: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
cs.AI
Resumen
La generación de contenido 3D ha atraído recientemente un interés significativo en la investigación debido a sus aplicaciones en realidad virtual/aumentada (VR/AR) e inteligencia artificial encarnada. En este trabajo, abordamos la tarea desafiante de sintetizar múltiples activos 3D dentro de una sola imagen de escena. Concretamente, nuestras contribuciones son cuatro: (i) presentamos SceneGen, un marco novedoso que toma una imagen de escena y las máscaras de objetos correspondientes como entrada, produciendo simultáneamente múltiples activos 3D con geometría y textura. Notablemente, SceneGen opera sin necesidad de optimización o recuperación de activos; (ii) introducimos un módulo novedoso de agregación de características que integra información local y global de la escena a partir de codificadores visuales y geométricos dentro del módulo de extracción de características. Junto con una cabeza de posición, esto permite la generación de activos 3D y sus posiciones espaciales relativas en un único paso de propagación hacia adelante; (iii) demostramos la extensibilidad directa de SceneGen a escenarios de entrada con múltiples imágenes. A pesar de haber sido entrenado únicamente con entradas de una sola imagen, nuestro diseño arquitectónico permite un mejor rendimiento de generación con entradas de múltiples imágenes; y (iv) evaluaciones cuantitativas y cualitativas extensas confirman la eficiencia y las capacidades robustas de generación de nuestro enfoque. Creemos que este paradigma ofrece una solución novedosa para la generación de contenido 3D de alta calidad, potencialmente avanzando sus aplicaciones prácticas en tareas posteriores. El código y el modelo estarán disponibles públicamente en: https://mengmouxu.github.io/SceneGen.
English
3D content generation has recently attracted significant research interest
due to its applications in VR/AR and embodied AI. In this work, we address the
challenging task of synthesizing multiple 3D assets within a single scene
image. Concretely, our contributions are fourfold: (i) we present SceneGen, a
novel framework that takes a scene image and corresponding object masks as
input, simultaneously producing multiple 3D assets with geometry and texture.
Notably, SceneGen operates with no need for optimization or asset retrieval;
(ii) we introduce a novel feature aggregation module that integrates local and
global scene information from visual and geometric encoders within the feature
extraction module. Coupled with a position head, this enables the generation of
3D assets and their relative spatial positions in a single feedforward pass;
(iii) we demonstrate SceneGen's direct extensibility to multi-image input
scenarios. Despite being trained solely on single-image inputs, our
architectural design enables improved generation performance with multi-image
inputs; and (iv) extensive quantitative and qualitative evaluations confirm the
efficiency and robust generation abilities of our approach. We believe this
paradigm offers a novel solution for high-quality 3D content generation,
potentially advancing its practical applications in downstream tasks. The code
and model will be publicly available at: https://mengmouxu.github.io/SceneGen.