Dreamer XL: Rumando à Geração de Texto para 3D em Alta Resolução via Correspondência de Trajetórias
Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching
May 18, 2024
Autores: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI
Resumo
Neste trabalho, propomos um novo método chamado Trajectory Score Matching (TSM), que visa resolver o problema de inconsistência do pseudo ground truth causado pelo erro acumulado no Interval Score Matching (ISM) ao utilizar o processo de inversão dos Denoising Diffusion Implicit Models (DDIM). Diferente do ISM, que adota o processo de inversão do DDIM para calcular em um único caminho, nosso método TSM aproveita o processo de inversão do DDIM para gerar dois caminhos a partir do mesmo ponto inicial para o cálculo. Como ambos os caminhos começam do mesmo ponto, o TSM pode reduzir o erro acumulado em comparação com o ISM, aliviando assim o problema de inconsistência do pseudo ground truth. O TSM melhora a estabilidade e a consistência dos caminhos gerados pelo modelo durante o processo de destilação. Demonstramos isso experimentalmente e ainda mostramos que o ISM é um caso especial do TSM. Além disso, para otimizar o atual processo de otimização em múltiplos estágios, desde a geração de texto de alta resolução até a geração 3D, adotamos o Stable Diffusion XL como guia. Em resposta aos problemas de replicação anormal e divisão causados por gradientes instáveis durante o processo de 3D Gaussian splatting ao usar o Stable Diffusion XL, propomos um método de corte de gradiente pixel a pixel. Experimentos extensivos mostram que nosso modelo supera significativamente os modelos state-of-the-art em termos de qualidade visual e desempenho. Código: https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that
aims to solve the pseudo ground truth inconsistency problem caused by the
accumulated error in Interval Score Matching (ISM) when using the Denoising
Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the
inversion process of DDIM to calculate on a single path, our TSM method
leverages the inversion process of DDIM to generate two paths from the same
starting point for calculation. Since both paths start from the same starting
point, TSM can reduce the accumulated error compared to ISM, thus alleviating
the problem of pseudo ground truth inconsistency. TSM enhances the stability
and consistency of the model's generated paths during the distillation process.
We demonstrate this experimentally and further show that ISM is a special case
of TSM. Furthermore, to optimize the current multi-stage optimization process
from high-resolution text to 3D generation, we adopt Stable Diffusion XL for
guidance. In response to the issues of abnormal replication and splitting
caused by unstable gradients during the 3D Gaussian splatting process when
using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping
method. Extensive experiments show that our model significantly surpasses the
state-of-the-art models in terms of visual quality and performance. Code:
https://github.com/xingy038/Dreamer-XL.