ChatPaper.aiChatPaper

MV-RAG: 検索拡張型マルチビュー拡散

MV-RAG: Retrieval Augmented Multiview Diffusion

August 22, 2025
著者: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI

要旨

テキストから3D生成するアプローチは、事前学習済みの2D拡散モデルを活用することで大幅に進化し、高品質で3D整合性のある出力を実現しています。しかし、ドメイン外(OOD)や希少な概念を生成する際には、不整合や不正確な結果が生じることがしばしばあります。この課題に対処するため、我々はMV-RAGという新しいテキストから3D生成パイプラインを提案します。この手法では、まず大規模な実世界の2D画像データベースから関連する2D画像を検索し、その後、これらの画像を条件としてマルチビュー拡散モデルに適用し、整合性と正確性を備えたマルチビュー出力を合成します。この検索条件付きモデルの学習は、構造化されたマルチビューデータと多様な2D画像コレクションを橋渡しする新しいハイブリッド戦略によって実現されます。これには、ビュー固有の再構成のために検索のばらつきをシミュレートする拡張条件ビューを使用したマルチビューデータでの学習と、検索された実世界の2D画像セットを使用した独自のホールドアウトビュー予測目標での学習が含まれます。このモデルは、他のビューからホールドアウトビューを予測することで、2Dデータから3D整合性を推論します。厳密なOOD評価を可能にするため、我々は新しい挑戦的なOODプロンプトのコレクションを導入しました。最先端のテキストから3D、画像から3D、およびパーソナライゼーションベースラインとの比較実験により、我々のアプローチがOOD/希少な概念において3D整合性、写実性、テキストの忠実度を大幅に向上させつつ、標準ベンチマークでも競争力のある性能を維持することが示されました。
English
Text-to-3D generation approaches have advanced significantly by leveraging pretrained 2D diffusion priors, producing high-quality and 3D-consistent outputs. However, they often fail to produce out-of-domain (OOD) or rare concepts, yielding inconsistent or inaccurate results. To this end, we propose MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images from a large in-the-wild 2D database and then conditions a multiview diffusion model on these images to synthesize consistent and accurate multiview outputs. Training such a retrieval-conditioned model is achieved via a novel hybrid strategy bridging structured multiview data and diverse 2D image collections. This involves training on multiview data using augmented conditioning views that simulate retrieval variance for view-specific reconstruction, alongside training on sets of retrieved real-world 2D images using a distinctive held-out view prediction objective: the model predicts the held-out view from the other views to infer 3D consistency from 2D data. To facilitate a rigorous OOD evaluation, we introduce a new collection of challenging OOD prompts. Experiments against state-of-the-art text-to-3D, image-to-3D, and personalization baselines show that our approach significantly improves 3D consistency, photorealism, and text adherence for OOD/rare concepts, while maintaining competitive performance on standard benchmarks.
PDF282August 26, 2025