MV-RAG : Diffusion Multivue Augmentée par Récupération
MV-RAG: Retrieval Augmented Multiview Diffusion
August 22, 2025
papers.authors: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI
papers.abstract
Les approches de génération de texte-à-3D ont considérablement progressé en exploitant des modèles de diffusion 2D pré-entraînés, produisant des résultats de haute qualité et cohérents en 3D. Cependant, elles échouent souvent à générer des concepts hors domaine (OOD) ou rares, donnant lieu à des résultats incohérents ou inexacts. Pour remédier à cela, nous proposons MV-RAG, un nouveau pipeline texte-à-3D qui récupère d'abord des images 2D pertinentes à partir d'une vaste base de données d'images 2D en conditions réelles, puis conditionne un modèle de diffusion multivue sur ces images pour synthétiser des sorties multivues cohérentes et précises. L'entraînement d'un tel modèle conditionné par récupération est réalisé via une stratégie hybride novatrice, reliant des données multivues structurées et des collections diversifiées d'images 2D. Cela implique un entraînement sur des données multivues en utilisant des vues de conditionnement augmentées qui simulent la variance de récupération pour la reconstruction spécifique à la vue, ainsi qu'un entraînement sur des ensembles d'images 2D réelles récupérées en utilisant un objectif distinct de prédiction de vue masquée : le modèle prédit la vue masquée à partir des autres vues pour inférer la cohérence 3D à partir de données 2D. Pour faciliter une évaluation rigoureuse des concepts OOD, nous introduisons une nouvelle collection de prompts OOD complexes. Les expériences comparées aux méthodes de pointe en texte-à-3D, image-à-3D et personnalisation montrent que notre approche améliore significativement la cohérence 3D, le photoréalisme et l'adhésion au texte pour les concepts OOD/rares, tout en maintenant des performances compétitives sur les benchmarks standards.
English
Text-to-3D generation approaches have advanced significantly by leveraging
pretrained 2D diffusion priors, producing high-quality and 3D-consistent
outputs. However, they often fail to produce out-of-domain (OOD) or rare
concepts, yielding inconsistent or inaccurate results. To this end, we propose
MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images
from a large in-the-wild 2D database and then conditions a multiview diffusion
model on these images to synthesize consistent and accurate multiview outputs.
Training such a retrieval-conditioned model is achieved via a novel hybrid
strategy bridging structured multiview data and diverse 2D image collections.
This involves training on multiview data using augmented conditioning views
that simulate retrieval variance for view-specific reconstruction, alongside
training on sets of retrieved real-world 2D images using a distinctive held-out
view prediction objective: the model predicts the held-out view from the other
views to infer 3D consistency from 2D data. To facilitate a rigorous OOD
evaluation, we introduce a new collection of challenging OOD prompts.
Experiments against state-of-the-art text-to-3D, image-to-3D, and
personalization baselines show that our approach significantly improves 3D
consistency, photorealism, and text adherence for OOD/rare concepts, while
maintaining competitive performance on standard benchmarks.