3D-RE-GEN: Reconstrucción 3D de Escenas Interiores con un Marco Generativo
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework
December 19, 2025
Autores: Tobias Sautter, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI
Resumen
Los recientes avances en generación de escenas 3D producen resultados visualmente atractivos, pero las representaciones actuales dificultan los flujos de trabajo de los artistas que requieren escenas de mallas texturizadas 3D modificables para efectos visuales y desarrollo de videojuegos. A pesar de los avances significativos, los métodos actuales de reconstrucción de escenas con mallas texturizadas distan mucho de estar listos para artistas, adoleciendo de descomposición incorrecta de objetos, relaciones espaciales inexactas y fondos faltantes. Presentamos 3D-RE-GEN, un marco composicional que reconstruye una sola imagen en objetos 3D texturizados y un fondo. Demostramos que combinar modelos de última generación de dominios específicos logra un rendimiento de última generación en reconstrucción de escenas, abordando los requisitos de los artistas.
Nuestra canalización de reconstrucción integra modelos para detección de activos, reconstrucción y colocación, llevando a ciertos modelos más allá de sus dominios originalmente previstos. La obtención de objetos ocluidos se trata como una tarea de edición de imágenes con modelos generativos para inferir y reconstruir con razonamiento a nivel de escena bajo iluminación y geometría consistentes. A diferencia de los métodos actuales, 3D-RE-GEN genera un fondo integral que restringe espacialmente los objetos durante la optimización y proporciona una base para tareas realistas de iluminación y simulación en efectos visuales y videojuegos. Para obtener disposiciones físicamente realistas, empleamos una novedosa optimización diferenciable de 4-GDL que alinea los objetos reconstruidos con el plano del suelo estimado. 3D-RE-GEN logra un rendimiento de última generación en reconstrucción de escenas 3D a partir de una sola imagen, produciendo escenas coherentes y modificables mediante generación composicional guiada por recuperación precisa de cámara y optimización espacial.
English
Recent advances in 3D scene generation produce visually appealing output, but current representations hinder artists' workflows that require modifiable 3D textured mesh scenes for visual effects and game development. Despite significant advances, current textured mesh scene reconstruction methods are far from artist ready, suffering from incorrect object decomposition, inaccurate spatial relationships, and missing backgrounds. We present 3D-RE-GEN, a compositional framework that reconstructs a single image into textured 3D objects and a background. We show that combining state of the art models from specific domains achieves state of the art scene reconstruction performance, addressing artists' requirements.
Our reconstruction pipeline integrates models for asset detection, reconstruction, and placement, pushing certain models beyond their originally intended domains. Obtaining occluded objects is treated as an image editing task with generative models to infer and reconstruct with scene level reasoning under consistent lighting and geometry. Unlike current methods, 3D-RE-GEN generates a comprehensive background that spatially constrains objects during optimization and provides a foundation for realistic lighting and simulation tasks in visual effects and games. To obtain physically realistic layouts, we employ a novel 4-DoF differentiable optimization that aligns reconstructed objects with the estimated ground plane. 3D-RE-GEN~achieves state of the art performance in single image 3D scene reconstruction, producing coherent, modifiable scenes through compositional generation guided by precise camera recovery and spatial optimization.