TexFusion: Синтез 3D-текстур с использованием текстово-управляемых моделей диффузии изображений
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
October 20, 2023
Авторы: Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin
cs.AI
Аннотация
Мы представляем TexFusion (Texture Diffusion) — новый метод синтеза текстур для заданных 3D-геометрий с использованием крупномасштабных моделей диффузии изображений, управляемых текстом. В отличие от недавних работ, которые используют 2D-модели диффузии "текст-в-изображение" для дистилляции 3D-объектов через медленный и ненадежный процесс оптимизации, TexFusion предлагает новый подход к генерации с сохранением 3D-согласованности, специально разработанный для синтеза текстур. Этот метод применяет стандартный процесс сэмплирования модели диффузии на различных 2D-рендерах объекта. В частности, мы используем латентные модели диффузии, применяем денойзер модели диффузии к набору 2D-рендеров 3D-объекта и объединяем различные предсказания денойзинга на общей латентной карте текстур. Финальные RGB-текстуры создаются путем оптимизации промежуточного нейронного цветового поля на декодированиях 2D-рендеров латентной текстуры. Мы тщательно проверяем TexFusion и демонстрируем, что он позволяет эффективно генерировать разнообразные, высококачественные и глобально согласованные текстуры. Мы достигаем передовых результатов в синтезе текстур, управляемом текстом, используя только модели диффузии изображений, избегая при этом недостатков предыдущих методов, основанных на дистилляции. Условность на текст обеспечивает детальный контроль, и мы также не полагаемся на какие-либо эталонные 3D-текстуры для обучения. Это делает наш метод универсальным и применимым к широкому спектру геометрий и типов текстур. Мы надеемся, что TexFusion продвинет AI-основанное текстурирование 3D-активов для приложений в виртуальной реальности, дизайне игр, симуляциях и других областях.
English
We present TexFusion (Texture Diffusion), a new method to synthesize textures
for given 3D geometries, using large-scale text-guided image diffusion models.
In contrast to recent works that leverage 2D text-to-image diffusion models to
distill 3D objects using a slow and fragile optimization process, TexFusion
introduces a new 3D-consistent generation technique specifically designed for
texture synthesis that employs regular diffusion model sampling on different 2D
rendered views. Specifically, we leverage latent diffusion models, apply the
diffusion model's denoiser on a set of 2D renders of the 3D object, and
aggregate the different denoising predictions on a shared latent texture map.
Final output RGB textures are produced by optimizing an intermediate neural
color field on the decodings of 2D renders of the latent texture. We thoroughly
validate TexFusion and show that we can efficiently generate diverse, high
quality and globally coherent textures. We achieve state-of-the-art text-guided
texture synthesis performance using only image diffusion models, while avoiding
the pitfalls of previous distillation-based methods. The text-conditioning
offers detailed control and we also do not rely on any ground truth 3D textures
for training. This makes our method versatile and applicable to a broad range
of geometry and texture types. We hope that TexFusion will advance AI-based
texturing of 3D assets for applications in virtual reality, game design,
simulation, and more.