Dreamer XL: Hacia la generación de texto a 3D de alta resolución mediante emparejamiento de trayectorias de puntuación
Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching
May 18, 2024
Autores: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI
Resumen
En este trabajo, proponemos un nuevo método llamado Trajectory Score Matching (TSM) que tiene como objetivo resolver el problema de inconsistencia en la pseudo verdad de campo causado por el error acumulado en Interval Score Matching (ISM) al utilizar el proceso de inversión de los Denoising Diffusion Implicit Models (DDIM). A diferencia de ISM, que adopta el proceso de inversión de DDIM para calcular en una única trayectoria, nuestro método TSM aprovecha el proceso de inversión de DDIM para generar dos trayectorias desde el mismo punto de partida para realizar el cálculo. Dado que ambas trayectorias comienzan desde el mismo punto inicial, TSM puede reducir el error acumulado en comparación con ISM, mitigando así el problema de inconsistencia en la pseudo verdad de campo. TSM mejora la estabilidad y consistencia de las trayectorias generadas por el modelo durante el proceso de destilación. Demostramos esto experimentalmente y además mostramos que ISM es un caso especial de TSM. Además, para optimizar el proceso actual de optimización en múltiples etapas desde texto de alta resolución hasta la generación 3D, adoptamos Stable Diffusion XL como guía. En respuesta a los problemas de replicación anormal y división causados por gradientes inestables durante el proceso de 3D Gaussian splatting al utilizar Stable Diffusion XL, proponemos un método de recorte de gradiente píxel por píxel. Experimentos extensivos muestran que nuestro modelo supera significativamente a los modelos más avanzados en términos de calidad visual y rendimiento. Código: https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that
aims to solve the pseudo ground truth inconsistency problem caused by the
accumulated error in Interval Score Matching (ISM) when using the Denoising
Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the
inversion process of DDIM to calculate on a single path, our TSM method
leverages the inversion process of DDIM to generate two paths from the same
starting point for calculation. Since both paths start from the same starting
point, TSM can reduce the accumulated error compared to ISM, thus alleviating
the problem of pseudo ground truth inconsistency. TSM enhances the stability
and consistency of the model's generated paths during the distillation process.
We demonstrate this experimentally and further show that ISM is a special case
of TSM. Furthermore, to optimize the current multi-stage optimization process
from high-resolution text to 3D generation, we adopt Stable Diffusion XL for
guidance. In response to the issues of abnormal replication and splitting
caused by unstable gradients during the 3D Gaussian splatting process when
using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping
method. Extensive experiments show that our model significantly surpasses the
state-of-the-art models in terms of visual quality and performance. Code:
https://github.com/xingy038/Dreamer-XL.Summary
AI-Generated Summary