3D-RE-GEN: Ricostruzione 3D di Ambienti Interni con un Framework Generativo
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework
December 19, 2025
Autori: Tobias Sautter, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI
Abstract
I recenti progressi nella generazione di scene 3D producono risultati visivamente accattivanti, ma le attuali rappresentazioni ostacolano i flussi di lavoro degli artisti che richiedono scene di mesh 3D texturizzate e modificabili per gli effetti visivi e lo sviluppo di videogiochi. Nonostante i significativi avanzamenti, gli attuali metodi di ricostruzione di scene in mesh texturizzate sono ben lontani dall'essere pronti per l'uso artistico, soffrendo di una scomposizione errata degli oggetti, relazioni spaziali inaccurate e assenza di sfondi. Presentiamo 3D-RE-GEN, un framework composizionale che ricostruisce una singola immagine in oggetti 3D texturizzati e uno sfondo. Dimostriamo che combinare modelli all'avanguardia provenienti da domini specifici permette di raggiungere prestazioni all'avanguardia nella ricostruzione di scene, affrontando le esigenze degli artisti.
La nostra pipeline di ricostruzione integra modelli per il rilevamento degli asset, la ricostruzione e il posizionamento, spingendo alcuni modelli oltre i loro domini originariamente previsti. L'ottenimento di oggetti occlusi è trattato come un compito di editing di immagini con modelli generativi per inferire e ricostruire con un ragionamento a livello di scena sotto un'illuminazione e una geometria consistenti. A differenza dei metodi attuali, 3D-RE-GEN genera uno sfondo completo che vincola spazialmente gli oggetti durante l'ottimizzazione e fornisce una base per compiti realistici di illuminazione e simulazione negli effetti visivi e nei videogiochi. Per ottenere layout fisicamente realistici, impieghiamo una nuova ottimizzazione differenziabile a 4-DoF che allinea gli oggetti ricostruiti con il piano terreno stimato. 3D-RE-GEN raggiunge prestazioni all'avanguardia nella ricostruzione di scene 3D da singola immagine, producendo scene coerenti e modificabili attraverso una generazione composizionale guidata da un preciso recupero della camera e un'ottimizzazione spaziale.
English
Recent advances in 3D scene generation produce visually appealing output, but current representations hinder artists' workflows that require modifiable 3D textured mesh scenes for visual effects and game development. Despite significant advances, current textured mesh scene reconstruction methods are far from artist ready, suffering from incorrect object decomposition, inaccurate spatial relationships, and missing backgrounds. We present 3D-RE-GEN, a compositional framework that reconstructs a single image into textured 3D objects and a background. We show that combining state of the art models from specific domains achieves state of the art scene reconstruction performance, addressing artists' requirements.
Our reconstruction pipeline integrates models for asset detection, reconstruction, and placement, pushing certain models beyond their originally intended domains. Obtaining occluded objects is treated as an image editing task with generative models to infer and reconstruct with scene level reasoning under consistent lighting and geometry. Unlike current methods, 3D-RE-GEN generates a comprehensive background that spatially constrains objects during optimization and provides a foundation for realistic lighting and simulation tasks in visual effects and games. To obtain physically realistic layouts, we employ a novel 4-DoF differentiable optimization that aligns reconstructed objects with the estimated ground plane. 3D-RE-GEN~achieves state of the art performance in single image 3D scene reconstruction, producing coherent, modifiable scenes through compositional generation guided by precise camera recovery and spatial optimization.