ChatPaper.aiChatPaper

DreamTime: Усовершенствованная стратегия оптимизации для создания 3D-контента из текста

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

June 21, 2023
Авторы: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI

Аннотация

Диффузионные модели для генерации изображений по тексту, предварительно обученные на миллиардах пар изображение-текст, недавно позволили создавать 3D-контент по тексту путем оптимизации случайно инициализированных нейронных полей излучения (NeRF) с использованием дистилляции оценок. Однако полученные 3D-модели демонстрируют два основных ограничения: (а) проблемы с качеством, такие как перенасыщенные цвета и проблема Януса; (б) крайне низкое разнообразие по сравнению с синтезом изображений, управляемым текстом. В данной работе мы показываем, что конфликт между процессом оптимизации NeRF и равномерной выборкой временных шагов в дистилляции оценок является основной причиной этих ограничений. Для разрешения этого конфликта мы предлагаем приоритезировать выборку временных шагов с использованием монотонно невозрастающих функций, что согласует оптимизацию NeRF с процессом выборки в диффузионной модели. Многочисленные эксперименты показывают, что наше простое перепроектирование значительно улучшает создание 3D-контента по тексту, обеспечивая более высокое качество и разнообразие.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled text-to-3D content creation by optimizing a randomly initialized Neural Radiance Fields (NeRF) with score distillation. However, the resultant 3D models exhibit two limitations: (a) quality concerns such as saturated color and the Janus problem; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between NeRF optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns NeRF optimization with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves text-to-3D content creation with higher quality and diversity.
PDF121December 15, 2024