MV-RAG: Retrieval-augmentierte Multiview-Diffusion
MV-RAG: Retrieval Augmented Multiview Diffusion
August 22, 2025
papers.authors: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI
papers.abstract
Text-to-3D-Generierungsansätze haben durch die Nutzung vortrainierter 2D-Diffusionsprioren erhebliche Fortschritte gemacht und liefern qualitativ hochwertige und 3D-konsistente Ergebnisse. Allerdings scheitern sie oft daran, out-of-domain (OOD)- oder seltene Konzepte zu erzeugen, was zu inkonsistenten oder ungenauen Ergebnissen führt. Daher schlagen wir MV-RAG vor, eine neuartige Text-to-3D-Pipeline, die zunächst relevante 2D-Bilder aus einer großen, in freier Wildbahn gesammelten 2D-Datenbank abruft und dann ein Multiview-Diffusionsmodell auf diesen Bildern konditioniert, um konsistente und präzise Multiview-Ergebnisse zu synthetisieren. Das Training eines solchen abrufkonditionierten Modells wird durch eine neuartige Hybridstrategie erreicht, die strukturierte Multiview-Daten und diverse 2D-Bildsammlungen verbindet. Dies umfasst das Training an Multiview-Daten unter Verwendung von augmentierten Konditionierungsansichten, die die Abrufvarianz für die ansichtsspezifische Rekonstruktion simulieren, sowie das Training an Sätzen von abgerufenen realen 2D-Bildern unter Verwendung eines speziellen „held-out view prediction“-Ziels: Das Modell sagt die ausgeblendete Ansicht aus den anderen Ansichten voraus, um 3D-Konsistenz aus 2D-Daten abzuleiten. Um eine rigorose OOD-Evaluierung zu ermöglichen, führen wir eine neue Sammlung herausfordernder OOD-Prompts ein. Experimente im Vergleich zu state-of-the-art Text-to-3D-, Bild-to-3D- und Personalisierungs-Baselines zeigen, dass unser Ansatz die 3D-Konsistenz, den Fotorealismus und die Texttreue für OOD/seltene Konzepte signifikant verbessert, während er eine wettbewerbsfähige Leistung auf Standard-Benchmarks beibehält.
English
Text-to-3D generation approaches have advanced significantly by leveraging
pretrained 2D diffusion priors, producing high-quality and 3D-consistent
outputs. However, they often fail to produce out-of-domain (OOD) or rare
concepts, yielding inconsistent or inaccurate results. To this end, we propose
MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images
from a large in-the-wild 2D database and then conditions a multiview diffusion
model on these images to synthesize consistent and accurate multiview outputs.
Training such a retrieval-conditioned model is achieved via a novel hybrid
strategy bridging structured multiview data and diverse 2D image collections.
This involves training on multiview data using augmented conditioning views
that simulate retrieval variance for view-specific reconstruction, alongside
training on sets of retrieved real-world 2D images using a distinctive held-out
view prediction objective: the model predicts the held-out view from the other
views to infer 3D consistency from 2D data. To facilitate a rigorous OOD
evaluation, we introduce a new collection of challenging OOD prompts.
Experiments against state-of-the-art text-to-3D, image-to-3D, and
personalization baselines show that our approach significantly improves 3D
consistency, photorealism, and text adherence for OOD/rare concepts, while
maintaining competitive performance on standard benchmarks.