UniDream: Унификация диффузионных априорных моделей для генерации переосвещаемых 3D-объектов из текста
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
December 14, 2023
Авторы: Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang
cs.AI
Аннотация
Последние достижения в технологии генерации 3D-объектов из текстовых описаний значительно продвинули процесс преобразования текстовых описаний в воображаемые, геометрически точные и детально текстурированные 3D-модели. Однако, несмотря на эти успехи, распространённым ограничением является использование RGB-данных в диффузионных или реконструкционных моделях, что часто приводит к появлению моделей с эффектами освещения и теней, которые снижают их реалистичность и ограничивают их применимость в задачах, требующих точного переосвещения. Чтобы устранить этот пробел, мы представляем UniDream — фреймворк для генерации 3D-объектов из текста, основанный на объединённых диффузионных априорных данных. Наш подход включает три основных компонента: (1) двухэтапный процесс обучения для получения согласованных по альбедо и нормалям многовидовых диффузионных и реконструкционных моделей, (2) прогрессивную процедуру генерации геометрии и текстур альбедо на основе метода Score Distillation Sample (SDS) с использованием обученных реконструкционных и диффузионных моделей, и (3) инновационное применение SDS для финализации генерации PBR (физически корректного рендеринга) с сохранением фиксированного альбедо на основе модели Stable Diffusion. Результаты обширных экспериментов показывают, что UniDream превосходит существующие методы в создании 3D-объектов с более чёткими текстурами альбедо, гладкими поверхностями, повышенной реалистичностью и улучшенными возможностями переосвещения.
English
Recent advancements in text-to-3D generation technology have significantly
advanced the conversion of textual descriptions into imaginative
well-geometrical and finely textured 3D objects. Despite these developments, a
prevalent limitation arises from the use of RGB data in diffusion or
reconstruction models, which often results in models with inherent lighting and
shadows effects that detract from their realism, thereby limiting their
usability in applications that demand accurate relighting capabilities. To
bridge this gap, we present UniDream, a text-to-3D generation framework by
incorporating unified diffusion priors. Our approach consists of three main
components: (1) a dual-phase training process to get albedo-normal aligned
multi-view diffusion and reconstruction models, (2) a progressive generation
procedure for geometry and albedo-textures based on Score Distillation Sample
(SDS) using the trained reconstruction and diffusion models, and (3) an
innovative application of SDS for finalizing PBR generation while keeping a
fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate
that UniDream surpasses existing methods in generating 3D objects with clearer
albedo textures, smoother surfaces, enhanced realism, and superior relighting
capabilities.