MV-RAG: Difusión Multivista Aumentada por Recuperación
MV-RAG: Retrieval Augmented Multiview Diffusion
August 22, 2025
Autores: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI
Resumen
Los enfoques de generación de texto a 3D han avanzado significativamente al aprovechar priores de difusión 2D preentrenados, produciendo resultados de alta calidad y consistentes en 3D. Sin embargo, a menudo fallan al generar conceptos fuera del dominio (OOD, por sus siglas en inglés) o raros, lo que resulta en inconsistencias o imprecisiones. Para abordar este problema, proponemos MV-RAG, una novedosa pipeline de texto a 3D que primero recupera imágenes 2D relevantes de una amplia base de datos de imágenes 2D en entornos naturales y luego condiciona un modelo de difusión multivista en estas imágenes para sintetizar resultados multivista consistentes y precisos. El entrenamiento de un modelo condicionado por recuperación se logra mediante una estrategia híbrida novedosa que combina datos multivista estructurados y colecciones diversas de imágenes 2D. Esto implica entrenar con datos multivista utilizando vistas de condicionamiento aumentadas que simulan la variabilidad de recuperación para la reconstrucción específica de la vista, junto con el entrenamiento en conjuntos de imágenes 2D reales recuperadas utilizando un objetivo distintivo de predicción de vista excluida: el modelo predice la vista excluida a partir de las otras vistas para inferir consistencia 3D a partir de datos 2D. Para facilitar una evaluación rigurosa de OOD, introducimos una nueva colección de indicaciones OOD desafiantes. Los experimentos comparados con los métodos más avanzados de texto a 3D, imagen a 3D y personalización muestran que nuestro enfoque mejora significativamente la consistencia 3D, el fotorrealismo y la adherencia al texto para conceptos OOD/raros, manteniendo un rendimiento competitivo en benchmarks estándar.
English
Text-to-3D generation approaches have advanced significantly by leveraging
pretrained 2D diffusion priors, producing high-quality and 3D-consistent
outputs. However, they often fail to produce out-of-domain (OOD) or rare
concepts, yielding inconsistent or inaccurate results. To this end, we propose
MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images
from a large in-the-wild 2D database and then conditions a multiview diffusion
model on these images to synthesize consistent and accurate multiview outputs.
Training such a retrieval-conditioned model is achieved via a novel hybrid
strategy bridging structured multiview data and diverse 2D image collections.
This involves training on multiview data using augmented conditioning views
that simulate retrieval variance for view-specific reconstruction, alongside
training on sets of retrieved real-world 2D images using a distinctive held-out
view prediction objective: the model predicts the held-out view from the other
views to infer 3D consistency from 2D data. To facilitate a rigorous OOD
evaluation, we introduce a new collection of challenging OOD prompts.
Experiments against state-of-the-art text-to-3D, image-to-3D, and
personalization baselines show that our approach significantly improves 3D
consistency, photorealism, and text adherence for OOD/rare concepts, while
maintaining competitive performance on standard benchmarks.