Dreamer XL: По пути к генерации трехмерных изображений из текста высокого разрешения с помощью сопоставления оценки траектории.
Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching
May 18, 2024
Авторы: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI
Аннотация
В данной работе мы предлагаем новый метод Trajectory Score Matching (TSM), который направлен на решение проблемы несоответствия псевдоистине, вызванной накопленной ошибкой в методе Interval Score Matching (ISM) при использовании процесса инверсии в моделях неявной диффузии шумоподавления (DDIM). В отличие от ISM, который применяет процесс инверсии DDIM для вычислений по одному пути, наш метод TSM использует процесс инверсии DDIM для создания двух путей из одной и той же начальной точки для вычислений. Поскольку оба пути начинаются с одной и той же начальной точки, TSM способен сократить накопленную ошибку по сравнению с ISM, тем самым уменьшая проблему несоответствия псевдоистине. TSM повышает стабильность и последовательность сгенерированных моделью путей в процессе дистилляции. Мы экспериментально продемонстрировали это и также показали, что ISM является частным случаем TSM. Кроме того, для оптимизации текущего многоэтапного процесса оптимизации от текста высокого разрешения к генерации 3D, мы используем Stable Diffusion XL в качестве руководства. В ответ на проблемы аномального копирования и разделения, вызванные нестабильными градиентами во время процесса гауссовского сплетения 3D при использовании Stable Diffusion XL, мы предлагаем метод обрезки градиента пиксель за пикселем. Обширные эксперименты показывают, что наша модель значительно превосходит существующие модели по качеству изображения и производительности. Код: https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that
aims to solve the pseudo ground truth inconsistency problem caused by the
accumulated error in Interval Score Matching (ISM) when using the Denoising
Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the
inversion process of DDIM to calculate on a single path, our TSM method
leverages the inversion process of DDIM to generate two paths from the same
starting point for calculation. Since both paths start from the same starting
point, TSM can reduce the accumulated error compared to ISM, thus alleviating
the problem of pseudo ground truth inconsistency. TSM enhances the stability
and consistency of the model's generated paths during the distillation process.
We demonstrate this experimentally and further show that ISM is a special case
of TSM. Furthermore, to optimize the current multi-stage optimization process
from high-resolution text to 3D generation, we adopt Stable Diffusion XL for
guidance. In response to the issues of abnormal replication and splitting
caused by unstable gradients during the 3D Gaussian splatting process when
using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping
method. Extensive experiments show that our model significantly surpasses the
state-of-the-art models in terms of visual quality and performance. Code:
https://github.com/xingy038/Dreamer-XL.Summary
AI-Generated Summary