MV-RAG: Diffusione Multivista Aumentata con Recupero
MV-RAG: Retrieval Augmented Multiview Diffusion
August 22, 2025
Autori: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI
Abstract
I metodi di generazione da testo a 3D hanno fatto significativi progressi sfruttando modelli di diffusione 2D pre-addestrati, producendo risultati di alta qualità e coerenti in 3D. Tuttavia, spesso falliscono nel generare concetti fuori dal dominio (OOD) o rari, producendo risultati incoerenti o imprecisi. A tal fine, proponiamo MV-RAG, una nuova pipeline da testo a 3D che prima recupera immagini 2D rilevanti da un ampio database di immagini 2D reali e poi condiziona un modello di diffusione multivista su queste immagini per sintetizzare output multivista coerenti e accurati. L'addestramento di un modello condizionato al recupero viene ottenuto tramite una nuova strategia ibrida che collega dati multivista strutturati e collezioni diverse di immagini 2D. Ciò implica l'addestramento su dati multivista utilizzando viste di condizionamento aumentate che simulano la varianza del recupero per la ricostruzione specifica della vista, insieme all'addestramento su insiemi di immagini 2D reali recuperate utilizzando un obiettivo distintivo di previsione della vista esclusa: il modello prevede la vista esclusa dalle altre viste per inferire la coerenza 3D dai dati 2D. Per facilitare una rigorosa valutazione OOD, introduciamo una nuova raccolta di prompt OOD impegnativi. Gli esperimenti condotti rispetto ai metodi all'avanguardia da testo a 3D, da immagine a 3D e di personalizzazione dimostrano che il nostro approccio migliora significativamente la coerenza 3D, il fotorealismo e l'aderenza al testo per concetti OOD/rari, mantenendo prestazioni competitive sui benchmark standard.
English
Text-to-3D generation approaches have advanced significantly by leveraging
pretrained 2D diffusion priors, producing high-quality and 3D-consistent
outputs. However, they often fail to produce out-of-domain (OOD) or rare
concepts, yielding inconsistent or inaccurate results. To this end, we propose
MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images
from a large in-the-wild 2D database and then conditions a multiview diffusion
model on these images to synthesize consistent and accurate multiview outputs.
Training such a retrieval-conditioned model is achieved via a novel hybrid
strategy bridging structured multiview data and diverse 2D image collections.
This involves training on multiview data using augmented conditioning views
that simulate retrieval variance for view-specific reconstruction, alongside
training on sets of retrieved real-world 2D images using a distinctive held-out
view prediction objective: the model predicts the held-out view from the other
views to infer 3D consistency from 2D data. To facilitate a rigorous OOD
evaluation, we introduce a new collection of challenging OOD prompts.
Experiments against state-of-the-art text-to-3D, image-to-3D, and
personalization baselines show that our approach significantly improves 3D
consistency, photorealism, and text adherence for OOD/rare concepts, while
maintaining competitive performance on standard benchmarks.