3D-RE-GEN: 生成フレームワークによる屋内シーンの3次元再構成
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework
December 19, 2025
著者: Tobias Sautter, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI
要旨
近年の3Dシーン生成技術は視覚的に魅力的な出力を実現しているが、現在の表現手法では、視覚効果やゲーム開発において修正可能な3Dテクスチャメッシュシーンを必要とするアーティストのワークフローを妨げている。著しい進歩にもかかわらず、現在のテクスチャメッシュシーン再構築手法はアーティストが実用的に使える水準には程遠く、不正確なオブジェクト分解、不正確な空間関係、背景の欠落といった問題を抱えている。本論文では、単一画像からテクスチャ付き3Dオブジェクト群と背景を再構築する構成的フレームワークである3D-RE-GENを提案する。特定領域の最先端モデルを組み合わせることで、アーティストの要求事項に対応しつつ、最先端のシーン再構築性能を達成できることを示す。
当該再構築パイプラインは、アセット検出・再構築・配置の各モデルを統合し、特定モデルを元々想定されていた領域を超えて応用する。遮蔽されたオブジェクトの取得は、画像編集タスクとして扱い、生成モデルを用いて一貫した照明・幾何条件下でのシーンレベルの推論による推定と再構築を行う。既存手法と異なり、3D-RE-GENは最適化過程でオブジェクトを空間的に拘束する包括的な背景を生成し、視覚効果やゲームにおける現実的な照明・シミュレーションタスクの基盤を提供する。物理的に現実的なレイアウトを得るため、再構築されたオブジェクトを推定された地面平面に整合させる新規の4-DoF微分可能最適化を採用する。3D-RE-GENは、正確なカメラ復元と空間最適化に導かれた構成的生成により、一貫性があり修正可能なシーンを生成し、単一画像からの3Dシーン再構築において最先端の性能を達成する。
English
Recent advances in 3D scene generation produce visually appealing output, but current representations hinder artists' workflows that require modifiable 3D textured mesh scenes for visual effects and game development. Despite significant advances, current textured mesh scene reconstruction methods are far from artist ready, suffering from incorrect object decomposition, inaccurate spatial relationships, and missing backgrounds. We present 3D-RE-GEN, a compositional framework that reconstructs a single image into textured 3D objects and a background. We show that combining state of the art models from specific domains achieves state of the art scene reconstruction performance, addressing artists' requirements.
Our reconstruction pipeline integrates models for asset detection, reconstruction, and placement, pushing certain models beyond their originally intended domains. Obtaining occluded objects is treated as an image editing task with generative models to infer and reconstruct with scene level reasoning under consistent lighting and geometry. Unlike current methods, 3D-RE-GEN generates a comprehensive background that spatially constrains objects during optimization and provides a foundation for realistic lighting and simulation tasks in visual effects and games. To obtain physically realistic layouts, we employ a novel 4-DoF differentiable optimization that aligns reconstructed objects with the estimated ground plane. 3D-RE-GEN~achieves state of the art performance in single image 3D scene reconstruction, producing coherent, modifiable scenes through compositional generation guided by precise camera recovery and spatial optimization.