ChatPaper.aiChatPaper

MV-RAG: Многовидовое диффузионное моделирование с расширением на основе извлечения данных

MV-RAG: Retrieval Augmented Multiview Diffusion

August 22, 2025
Авторы: Yosef Dayani, Omer Benishu, Sagie Benaim
cs.AI

Аннотация

Методы генерации 3D-моделей из текста значительно продвинулись благодаря использованию предобученных 2D диффузионных моделей, что позволяет получать высококачественные и согласованные 3D-результаты. Однако они часто не справляются с созданием объектов, выходящих за пределы обучающей области (out-of-domain, OOD) или редких концепций, что приводит к несогласованным или неточным результатам. Для решения этой проблемы мы предлагаем MV-RAG — новый подход к генерации 3D-моделей из текста, который сначала извлекает релевантные 2D-изображения из обширной базы данных реальных изображений, а затем использует их для синтеза согласованных и точных многовидовых выходных данных с помощью многовидовой диффузионной модели. Обучение такой модели, основанной на извлеченных данных, достигается за счет новой гибридной стратегии, объединяющей структурированные многовидовые данные и разнообразные коллекции 2D-изображений. Это включает обучение на многовидовых данных с использованием дополненных видов для моделирования вариативности извлечения с целью реконструкции для конкретных видов, а также обучение на наборах извлеченных реальных 2D-изображений с использованием уникальной задачи предсказания исключенного вида: модель предсказывает исключенный вид на основе других видов, чтобы вывести 3D-согласованность из 2D-данных. Для проведения строгой оценки на OOD-данных мы представляем новую коллекцию сложных OOD-запросов. Эксперименты с современными методами генерации 3D-моделей из текста, изображений и персонализации показывают, что наш подход значительно улучшает согласованность 3D-моделей, фотореалистичность и соответствие тексту для OOD/редких концепций, сохраняя при этом конкурентоспособные результаты на стандартных тестах.
English
Text-to-3D generation approaches have advanced significantly by leveraging pretrained 2D diffusion priors, producing high-quality and 3D-consistent outputs. However, they often fail to produce out-of-domain (OOD) or rare concepts, yielding inconsistent or inaccurate results. To this end, we propose MV-RAG, a novel text-to-3D pipeline that first retrieves relevant 2D images from a large in-the-wild 2D database and then conditions a multiview diffusion model on these images to synthesize consistent and accurate multiview outputs. Training such a retrieval-conditioned model is achieved via a novel hybrid strategy bridging structured multiview data and diverse 2D image collections. This involves training on multiview data using augmented conditioning views that simulate retrieval variance for view-specific reconstruction, alongside training on sets of retrieved real-world 2D images using a distinctive held-out view prediction objective: the model predicts the held-out view from the other views to infer 3D consistency from 2D data. To facilitate a rigorous OOD evaluation, we introduce a new collection of challenging OOD prompts. Experiments against state-of-the-art text-to-3D, image-to-3D, and personalization baselines show that our approach significantly improves 3D consistency, photorealism, and text adherence for OOD/rare concepts, while maintaining competitive performance on standard benchmarks.
PDF282August 26, 2025