TexGen: Генерация текстур 3D с управлением текстом с использованием многократной выборки и повторной выборки из нескольких видов.
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling
August 2, 2024
Авторы: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI
Аннотация
При наличии трехмерной сетки наша цель - синтезировать трехмерные текстуры, соответствующие произвольным текстовым описаниям. Существующие методы генерации и сборки текстур из выбранных видов часто приводят к выдающимся швам или избыточному сглаживанию. Для решения этих проблем мы представляем TexGen - новую многовидовую схему выборки и повторной выборки для генерации текстур, использующую предварительно обученную модель диффузии текста в изображение. Для согласованной выборки видов в первую очередь мы поддерживаем текстурную карту в цветовом пространстве RGB, параметризованную шагом денойзинга и обновляемую после каждого шага выборки модели диффузии для постепенного уменьшения различий во взглядах. Используется стратегия многовидовой выборки с управляемым вниманием для передачи информации об облике между видами. Для сохранения деталей текстуры мы разрабатываем технику повторной выборки шума, которая помогает в оценке шума, генерируя входные данные для последующих шагов денойзинга, как указано в текстовой подсказке и текущей текстурной карте. Через обширное количество качественных и количественных оценок мы демонстрируем, что наш метод производит значительно лучшее качество текстуры для разнообразных трехмерных объектов с высокой степенью согласованности взглядов и богатыми деталями облика, превосходя текущие передовые методы. Более подробные экспериментальные результаты доступны по ссылке https://dong-huo.github.io/TexGen/
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to
arbitrary textual descriptions. Current methods for generating and assembling
textures from sampled views often result in prominent seams or excessive
smoothing. To tackle these issues, we present TexGen, a novel multi-view
sampling and resampling framework for texture generation leveraging a
pre-trained text-to-image diffusion model. For view consistent sampling, first
of all we maintain a texture map in RGB space that is parameterized by the
denoising step and updated after each sampling step of the diffusion model to
progressively reduce the view discrepancy. An attention-guided multi-view
sampling strategy is exploited to broadcast the appearance information across
views. To preserve texture details, we develop a noise resampling technique
that aids in the estimation of noise, generating inputs for subsequent
denoising steps, as directed by the text prompt and current texture map.
Through an extensive amount of qualitative and quantitative evaluations, we
demonstrate that our proposed method produces significantly better texture
quality for diverse 3D objects with a high degree of view consistency and rich
appearance details, outperforming current state-of-the-art methods.
Furthermore, our proposed texture generation technique can also be applied to
texture editing while preserving the original identity. More experimental
results are available at https://dong-huo.github.io/TexGen/Summary
AI-Generated Summary