UniRecGen:多視点3D再構成と生成の統合
UniRecGen: Unifying Multi-View 3D Reconstruction and Generation
April 1, 2026
著者: Zhisheng Huang, Jiahao Chen, Cheng Lin, Chenyu Hu, Hanzhuo Huang, Zhengming Yu, Mengfei Li, Yuheng Liu, Zekai Gu, Zibo Zhao, Yuan Liu, Xin Li, Wenping Wang
cs.AI
要旨
スパースビュー3Dモデリングは、再構成の忠実度と生成的妥当性の間の根本的な緊張関係を表している。フォワード再構成は効率性と入力整合性に優れるが、構造的完全性に必要な大域的プリオーを欠くことが多い。一方、拡散ベースの生成は豊富な幾何学的詳細を提供するが、多視点一貫性に課題を残す。本研究では、これら二つのパラダイムを単一の協調システムに統合する統一フレームワーク「UniRecGen」を提案する。座標空間、3D表現、学習目標における本質的な衝突を克服するため、共有正準空間内で両モデルを整合させる。分離協調学習を採用し、推論時のシームレスな連携を可能にしつつ安定した学習を維持する。具体的には、再構成モジュールは正準幾何アンカーを提供するように適応され、拡散生成器は潜在拡張条件付けを活用して幾何構造を洗練・完成させる。実験結果では、UniRecGenが優れた忠実度と頑健性を達成し、まばらな観測からの完全かつ一貫性のある3Dモデル作成において既存手法を凌駕することを実証する。
English
Sparse-view 3D modeling represents a fundamental tension between reconstruction fidelity and generative plausibility. While feed-forward reconstruction excels in efficiency and input alignment, it often lacks the global priors needed for structural completeness. Conversely, diffusion-based generation provides rich geometric details but struggles with multi-view consistency. We present UniRecGen, a unified framework that integrates these two paradigms into a single cooperative system. To overcome inherent conflicts in coordinate spaces, 3D representations, and training objectives, we align both models within a shared canonical space. We employ disentangled cooperative learning, which maintains stable training while enabling seamless collaboration during inference. Specifically, the reconstruction module is adapted to provide canonical geometric anchors, while the diffusion generator leverages latent-augmented conditioning to refine and complete the geometric structure. Experimental results demonstrate that UniRecGen achieves superior fidelity and robustness, outperforming existing methods in creating complete and consistent 3D models from sparse observations.