3D-RE-GEN: Reconstrução 3D de Ambientes Internos com uma Estrutura Generativa
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework
December 19, 2025
Autores: Tobias Sautter, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI
Resumo
Os recentes avanços na geração de cenas 3D produzem resultados visualmente atrativos, mas as representações atuais dificultam os fluxos de trabalho de artistas que exigem cenas de malhas texturizadas 3D modificáveis para efeitos visuais e desenvolvimento de jogos. Apesar dos progressos significativos, os métodos atuais de reconstrução de cenas com malhas texturizadas estão longe de estar prontos para uso artístico, sofrendo com decomposição incorreta de objetos, relações espaciais imprecisas e ausência de planos de fundo. Apresentamos o 3D-RE-GEN, uma estrutura composicional que reconstrói uma única imagem em objetos 3D texturizados e um plano de fundo. Demonstramos que combinar modelos state of the art de domínios específicos alcança um desempenho state of the art na reconstrução de cenas, atendendo aos requisitos dos artistas.
Nossa pipeline de reconstrução integra modelos para detecção, reconstrução e posicionamento de assets, levando certos modelos para além dos seus domínios originalmente pretendidos. A obtenção de objetos ocluídos é tratada como uma tarefa de edição de imagem com modelos generativos para inferir e reconstruir com raciocínio em nível de cena sob iluminação e geometria consistentes. Diferente dos métodos atuais, o 3D-RE-GEN gera um plano de fundo abrangente que restringe espacialmente os objetos durante a otimização e fornece uma base para tarefas realistas de iluminação e simulação em efeitos visuais e jogos. Para obter layouts fisicamente realistas, empregamos uma nova otimização diferenciável de 4-DoF que alinha os objetos reconstruídos com o plano do solo estimado. O 3D-RE-GEN alcança desempenho state of the art na reconstrução de cenas 3D a partir de imagem única, produzindo cenas coerentes e modificáveis por meio de geração composicional guiada por recuperação precisa de câmera e otimização espacial.
English
Recent advances in 3D scene generation produce visually appealing output, but current representations hinder artists' workflows that require modifiable 3D textured mesh scenes for visual effects and game development. Despite significant advances, current textured mesh scene reconstruction methods are far from artist ready, suffering from incorrect object decomposition, inaccurate spatial relationships, and missing backgrounds. We present 3D-RE-GEN, a compositional framework that reconstructs a single image into textured 3D objects and a background. We show that combining state of the art models from specific domains achieves state of the art scene reconstruction performance, addressing artists' requirements.
Our reconstruction pipeline integrates models for asset detection, reconstruction, and placement, pushing certain models beyond their originally intended domains. Obtaining occluded objects is treated as an image editing task with generative models to infer and reconstruct with scene level reasoning under consistent lighting and geometry. Unlike current methods, 3D-RE-GEN generates a comprehensive background that spatially constrains objects during optimization and provides a foundation for realistic lighting and simulation tasks in visual effects and games. To obtain physically realistic layouts, we employ a novel 4-DoF differentiable optimization that aligns reconstructed objects with the estimated ground plane. 3D-RE-GEN~achieves state of the art performance in single image 3D scene reconstruction, producing coherent, modifiable scenes through compositional generation guided by precise camera recovery and spatial optimization.