MV-RAG: Difusão Multivisão Aumentada por Recuperação
MV-RAG: Retrieval Augmented Multiview Diffusion
August 22, 2025
Autores: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI
Resumo
As abordagens de geração de texto-para-3D avançaram significativamente ao aproveitar priors de difusão 2D pré-treinados, produzindo saídas de alta qualidade e consistentes em 3D. No entanto, elas frequentemente falham em gerar conceitos fora do domínio (OOD) ou raros, resultando em inconsistências ou imprecisões. Para isso, propomos o MV-RAG, um novo pipeline de texto-para-3D que primeiro recupera imagens 2D relevantes de um grande banco de dados 2D do mundo real e, em seguida, condiciona um modelo de difusão multiview nessas imagens para sintetizar saídas multiview consistentes e precisas. O treinamento de tal modelo condicionado por recuperação é alcançado por meio de uma estratégia híbrida inovadora que une dados multiview estruturados e coleções diversas de imagens 2D. Isso envolve o treinamento em dados multiview usando visões de condicionamento aumentadas que simulam a variância de recuperação para reconstrução específica da visão, juntamente com o treinamento em conjuntos de imagens 2D reais recuperadas usando um objetivo distinto de previsão de visão omitida: o modelo prevê a visão omitida a partir das outras visões para inferir consistência 3D a partir de dados 2D. Para facilitar uma avaliação rigorosa de OOD, introduzimos uma nova coleção de prompts OOD desafiadores. Experimentos comparados com os melhores métodos de texto-para-3D, imagem-para-3D e personalização mostram que nossa abordagem melhora significativamente a consistência 3D, o fotorrealismo e a aderência ao texto para conceitos OOD/raros, mantendo um desempenho competitivo em benchmarks padrão.
English
Text-to-3D generation approaches have advanced significantly by leveraging
pretrained 2D diffusion priors, producing high-quality and 3D-consistent
outputs. However, they often fail to produce out-of-domain (OOD) or rare
concepts, yielding inconsistent or inaccurate results. To this end, we propose
MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images
from a large in-the-wild 2D database and then conditions a multiview diffusion
model on these images to synthesize consistent and accurate multiview outputs.
Training such a retrieval-conditioned model is achieved via a novel hybrid
strategy bridging structured multiview data and diverse 2D image collections.
This involves training on multiview data using augmented conditioning views
that simulate retrieval variance for view-specific reconstruction, alongside
training on sets of retrieved real-world 2D images using a distinctive held-out
view prediction objective: the model predicts the held-out view from the other
views to infer 3D consistency from 2D data. To facilitate a rigorous OOD
evaluation, we introduce a new collection of challenging OOD prompts.
Experiments against state-of-the-art text-to-3D, image-to-3D, and
personalization baselines show that our approach significantly improves 3D
consistency, photorealism, and text adherence for OOD/rare concepts, while
maintaining competitive performance on standard benchmarks.