ChatPaper.aiChatPaper

MV-RAG: 검색 증강 다중 뷰 확산

MV-RAG: Retrieval Augmented Multiview Diffusion

August 22, 2025
저자: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI

초록

텍스트-투-3D 생성 접근법은 사전 학습된 2D 디퓨전 프라이어를 활용하여 크게 발전했으며, 고품질의 3D 일관성 있는 출력물을 생성합니다. 그러나 이러한 방법들은 도메인 외(OOD) 또는 희귀한 개념을 생성하는 데 실패하여 일관성 없거나 부정확한 결과를 내놓는 경우가 많습니다. 이를 해결하기 위해, 우리는 MV-RAG라는 새로운 텍스트-투-3D 파이프라인을 제안합니다. 이 파이프라인은 먼저 대규모 야생 2D 데이터베이스에서 관련 2D 이미지를 검색한 다음, 이러한 이미지를 기반으로 멀티뷰 디퓨전 모델을 조건화하여 일관적이고 정확한 멀티뷰 출력물을 합성합니다. 이러한 검색 조건화 모델의 학습은 구조화된 멀티뷰 데이터와 다양한 2D 이미지 컬렉션을 연결하는 새로운 하이브리드 전략을 통해 이루어집니다. 이는 검색 변동을 시뮬레이션하는 증강 조건화 뷰를 사용하여 멀티뷰 데이터에 대해 학습하는 것과 함께, 검색된 실제 2D 이미지 세트를 사용하여 독특한 홀드아웃 뷰 예측 목표를 통해 학습하는 것을 포함합니다: 모델은 다른 뷰에서 홀드아웃 뷰를 예측하여 2D 데이터에서 3D 일관성을 추론합니다. 엄격한 OOD 평가를 위해, 우리는 도전적인 OOD 프롬프트의 새로운 컬렉션을 소개합니다. 최신 텍스트-투-3D, 이미지-투-3D, 그리고 개인화 베이스라인과의 실험 결과, 우리의 접근법이 OOD/희귀 개념에 대해 3D 일관성, 사진 현실감, 그리고 텍스트 준수를 크게 개선하면서도 표준 벤치마크에서 경쟁력 있는 성능을 유지함을 보여줍니다.
English
Text-to-3D generation approaches have advanced significantly by leveraging pretrained 2D diffusion priors, producing high-quality and 3D-consistent outputs. However, they often fail to produce out-of-domain (OOD) or rare concepts, yielding inconsistent or inaccurate results. To this end, we propose MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images from a large in-the-wild 2D database and then conditions a multiview diffusion model on these images to synthesize consistent and accurate multiview outputs. Training such a retrieval-conditioned model is achieved via a novel hybrid strategy bridging structured multiview data and diverse 2D image collections. This involves training on multiview data using augmented conditioning views that simulate retrieval variance for view-specific reconstruction, alongside training on sets of retrieved real-world 2D images using a distinctive held-out view prediction objective: the model predicts the held-out view from the other views to infer 3D consistency from 2D data. To facilitate a rigorous OOD evaluation, we introduce a new collection of challenging OOD prompts. Experiments against state-of-the-art text-to-3D, image-to-3D, and personalization baselines show that our approach significantly improves 3D consistency, photorealism, and text adherence for OOD/rare concepts, while maintaining competitive performance on standard benchmarks.
PDF282August 26, 2025