MV-RAG: Retrieval-augmentierte Multiview-Diffusion

papers.abstract

Text-to-3D-Generierungsansätze haben durch die Nutzung vortrainierter 2D-Diffusionsprioren erhebliche Fortschritte gemacht und liefern qualitativ hochwertige und 3D-konsistente Ergebnisse. Allerdings scheitern sie oft daran, out-of-domain (OOD)- oder seltene Konzepte zu erzeugen, was zu inkonsistenten oder ungenauen Ergebnissen führt. Daher schlagen wir MV-RAG vor, eine neuartige Text-to-3D-Pipeline, die zunächst relevante 2D-Bilder aus einer großen, in freier Wildbahn gesammelten 2D-Datenbank abruft und dann ein Multiview-Diffusionsmodell auf diesen Bildern konditioniert, um konsistente und präzise Multiview-Ergebnisse zu synthetisieren. Das Training eines solchen abrufkonditionierten Modells wird durch eine neuartige Hybridstrategie erreicht, die strukturierte Multiview-Daten und diverse 2D-Bildsammlungen verbindet. Dies umfasst das Training an Multiview-Daten unter Verwendung von augmentierten Konditionierungsansichten, die die Abrufvarianz für die ansichtsspezifische Rekonstruktion simulieren, sowie das Training an Sätzen von abgerufenen realen 2D-Bildern unter Verwendung eines speziellen „held-out view prediction“-Ziels: Das Modell sagt die ausgeblendete Ansicht aus den anderen Ansichten voraus, um 3D-Konsistenz aus 2D-Daten abzuleiten. Um eine rigorose OOD-Evaluierung zu ermöglichen, führen wir eine neue Sammlung herausfordernder OOD-Prompts ein. Experimente im Vergleich zu state-of-the-art Text-to-3D-, Bild-to-3D- und Personalisierungs-Baselines zeigen, dass unser Ansatz die 3D-Konsistenz, den Fotorealismus und die Texttreue für OOD/seltene Konzepte signifikant verbessert, während er eine wettbewerbsfähige Leistung auf Standard-Benchmarks beibehält.

English

Text-to-3D generation approaches have advanced significantly by leveraging pretrained 2D diffusion priors, producing high-quality and 3D-consistent outputs. However, they often fail to produce out-of-domain (OOD) or rare concepts, yielding inconsistent or inaccurate results. To this end, we propose MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images from a large in-the-wild 2D database and then conditions a multiview diffusion model on these images to synthesize consistent and accurate multiview outputs. Training such a retrieval-conditioned model is achieved via a novel hybrid strategy bridging structured multiview data and diverse 2D image collections. This involves training on multiview data using augmented conditioning views that simulate retrieval variance for view-specific reconstruction, alongside training on sets of retrieved real-world 2D images using a distinctive held-out view prediction objective: the model predicts the held-out view from the other views to infer 3D consistency from 2D data. To facilitate a rigorous OOD evaluation, we introduce a new collection of challenging OOD prompts. Experiments against state-of-the-art text-to-3D, image-to-3D, and personalization baselines show that our approach significantly improves 3D consistency, photorealism, and text adherence for OOD/rare concepts, while maintaining competitive performance on standard benchmarks.

MV-RAG: Retrieval-augmentierte Multiview-Diffusion

MV-RAG: Retrieval Augmented Multiview Diffusion

papers.abstract

Support