DreamComposer: マルチビュー条件による制御可能な3Dオブジェクト生成
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
December 6, 2023
著者: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI
要旨
事前学習済みの2D大規模生成モデルを活用することで、最近の研究では単一の実世界画像から高品質な新規視点を生成することが可能となっています。しかし、複数視点からの情報が不足しているため、これらの研究では制御可能な新規視点の生成に困難を抱えています。本論文では、DreamComposerを提案します。これは、既存の視点認識拡散モデルを強化する柔軟でスケーラブルなフレームワークであり、複数視点の条件を注入することができます。具体的には、DreamComposerはまず視点認識3Dリフティングモジュールを使用して、複数視点から物体の3D表現を取得します。次に、複数視点特徴融合モジュールを用いて、3D表現から目標視点の潜在特徴をレンダリングします。最後に、複数視点入力から抽出された目標視点特徴を事前学習済みの拡散モデルに注入します。実験により、DreamComposerがゼロショット新規視点合成のための最先端の拡散モデルと互換性があり、それらをさらに強化して高忠実度の新規視点画像を複数視点条件付きで生成できることが示されました。これにより、制御可能な3Dオブジェクト再構築やその他の様々なアプリケーションに適した状態となります。
English
Utilizing pre-trained 2D large-scale generative models, recent works are
capable of generating high-quality novel views from a single in-the-wild image.
However, due to the lack of information from multiple views, these works
encounter difficulties in generating controllable novel views. In this paper,
we present DreamComposer, a flexible and scalable framework that can enhance
existing view-aware diffusion models by injecting multi-view conditions.
Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain
3D representations of an object from multiple views. Then, it renders the
latent features of the target view from 3D representations with the multi-view
feature fusion module. Finally the target view features extracted from
multi-view inputs are injected into a pre-trained diffusion model. Experiments
show that DreamComposer is compatible with state-of-the-art diffusion models
for zero-shot novel view synthesis, further enhancing them to generate
high-fidelity novel view images with multi-view conditions, ready for
controllable 3D object reconstruction and various other applications.