HiFA: Высококачественное преобразование текста в 3D с использованием продвинутого диффузионного управления

Аннотация

Автоматический синтез 3D-моделей из текста достиг значительных успехов благодаря оптимизации 3D-моделей. Существующие методы обычно полагаются на предварительно обученные генеративные модели для преобразования текста в изображения, такие как диффузионные модели, которые предоставляют оценки для 2D-рендеров Neural Radiance Fields (NeRF) и используются для оптимизации NeRF. Однако эти методы часто сталкиваются с артефактами и несогласованностью между несколькими видами из-за их ограниченного понимания 3D-геометрии. Чтобы устранить эти ограничения, мы предлагаем переформулировать функцию потерь оптимизации с использованием диффузионного априори. Кроме того, мы представляем новый подход к обучению, который раскрывает потенциал диффузионного априори. Для улучшения представления 3D-геометрии мы применяем дополнительное управление по глубине для изображений, рендеренных с помощью NeRF, и регуляризуем поле плотности NeRF. Многочисленные эксперименты демонстрируют превосходство нашего метода над предыдущими работами, что приводит к повышенному фотореализму и улучшенной согласованности между несколькими видами.

English

Automatic text-to-3D synthesis has achieved remarkable advancements through the optimization of 3D models. Existing methods commonly rely on pre-trained text-to-image generative models, such as diffusion models, providing scores for 2D renderings of Neural Radiance Fields (NeRFs) and being utilized for optimizing NeRFs. However, these methods often encounter artifacts and inconsistencies across multiple views due to their limited understanding of 3D geometry. To address these limitations, we propose a reformulation of the optimization loss using the diffusion prior. Furthermore, we introduce a novel training approach that unlocks the potential of the diffusion prior. To improve 3D geometry representation, we apply auxiliary depth supervision for NeRF-rendered images and regularize the density field of NeRFs. Extensive experiments demonstrate the superiority of our method over prior works, resulting in advanced photo-realism and improved multi-view consistency.

HiFA: Высококачественное преобразование текста в 3D с использованием продвинутого диффузионного управления

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance

Аннотация

Support