MV-RAG: Diffusione Multivista Aumentata con Recupero

Abstract

I metodi di generazione da testo a 3D hanno fatto significativi progressi sfruttando modelli di diffusione 2D pre-addestrati, producendo risultati di alta qualità e coerenti in 3D. Tuttavia, spesso falliscono nel generare concetti fuori dal dominio (OOD) o rari, producendo risultati incoerenti o imprecisi. A tal fine, proponiamo MV-RAG, una nuova pipeline da testo a 3D che prima recupera immagini 2D rilevanti da un ampio database di immagini 2D reali e poi condiziona un modello di diffusione multivista su queste immagini per sintetizzare output multivista coerenti e accurati. L'addestramento di un modello condizionato al recupero viene ottenuto tramite una nuova strategia ibrida che collega dati multivista strutturati e collezioni diverse di immagini 2D. Ciò implica l'addestramento su dati multivista utilizzando viste di condizionamento aumentate che simulano la varianza del recupero per la ricostruzione specifica della vista, insieme all'addestramento su insiemi di immagini 2D reali recuperate utilizzando un obiettivo distintivo di previsione della vista esclusa: il modello prevede la vista esclusa dalle altre viste per inferire la coerenza 3D dai dati 2D. Per facilitare una rigorosa valutazione OOD, introduciamo una nuova raccolta di prompt OOD impegnativi. Gli esperimenti condotti rispetto ai metodi all'avanguardia da testo a 3D, da immagine a 3D e di personalizzazione dimostrano che il nostro approccio migliora significativamente la coerenza 3D, il fotorealismo e l'aderenza al testo per concetti OOD/rari, mantenendo prestazioni competitive sui benchmark standard.

English

Text-to-3D generation approaches have advanced significantly by leveraging pretrained 2D diffusion priors, producing high-quality and 3D-consistent outputs. However, they often fail to produce out-of-domain (OOD) or rare concepts, yielding inconsistent or inaccurate results. To this end, we propose MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images from a large in-the-wild 2D database and then conditions a multiview diffusion model on these images to synthesize consistent and accurate multiview outputs. Training such a retrieval-conditioned model is achieved via a novel hybrid strategy bridging structured multiview data and diverse 2D image collections. This involves training on multiview data using augmented conditioning views that simulate retrieval variance for view-specific reconstruction, alongside training on sets of retrieved real-world 2D images using a distinctive held-out view prediction objective: the model predicts the held-out view from the other views to infer 3D consistency from 2D data. To facilitate a rigorous OOD evaluation, we introduce a new collection of challenging OOD prompts. Experiments against state-of-the-art text-to-3D, image-to-3D, and personalization baselines show that our approach significantly improves 3D consistency, photorealism, and text adherence for OOD/rare concepts, while maintaining competitive performance on standard benchmarks.

MV-RAG: Diffusione Multivista Aumentata con Recupero

MV-RAG: Retrieval Augmented Multiview Diffusion

Abstract

Support