Dreamer XL: Verso la Generazione Testo-a-3D ad Alta Risoluzione tramite Trajectory Score Matching
Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching
May 18, 2024
Autori: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI
Abstract
In questo lavoro, proponiamo un nuovo metodo chiamato Trajectory Score Matching (TSM) che mira a risolvere il problema dell'inconsistenza della pseudo ground truth causato dall'errore accumulato nell'Interval Score Matching (ISM) quando si utilizza il processo di inversione dei Denoising Diffusion Implicit Models (DDIM). A differenza dell'ISM, che adotta il processo di inversione dei DDIM per calcolare su un singolo percorso, il nostro metodo TSM sfrutta il processo di inversione dei DDIM per generare due percorsi a partire dallo stesso punto iniziale per il calcolo. Poiché entrambi i percorsi partono dallo stesso punto iniziale, il TSM può ridurre l'errore accumulato rispetto all'ISM, alleviando così il problema dell'inconsistenza della pseudo ground truth. Il TSM migliora la stabilità e la coerenza dei percorsi generati dal modello durante il processo di distillazione. Dimostriamo ciò sperimentalmente e mostriamo inoltre che l'ISM è un caso speciale del TSM. Inoltre, per ottimizzare l'attuale processo di ottimizzazione multi-stadio dalla generazione di testo ad alta risoluzione alla generazione 3D, adottiamo Stable Diffusion XL come guida. In risposta ai problemi di replicazione anomala e divisione causati da gradienti instabili durante il processo di 3D Gaussian splatting quando si utilizza Stable Diffusion XL, proponiamo un metodo di clipping del gradiente pixel per pixel. Esperimenti estensivi dimostrano che il nostro modello supera significativamente i modelli state-of-the-art in termini di qualità visiva e prestazioni. Codice: https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that
aims to solve the pseudo ground truth inconsistency problem caused by the
accumulated error in Interval Score Matching (ISM) when using the Denoising
Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the
inversion process of DDIM to calculate on a single path, our TSM method
leverages the inversion process of DDIM to generate two paths from the same
starting point for calculation. Since both paths start from the same starting
point, TSM can reduce the accumulated error compared to ISM, thus alleviating
the problem of pseudo ground truth inconsistency. TSM enhances the stability
and consistency of the model's generated paths during the distillation process.
We demonstrate this experimentally and further show that ISM is a special case
of TSM. Furthermore, to optimize the current multi-stage optimization process
from high-resolution text to 3D generation, we adopt Stable Diffusion XL for
guidance. In response to the issues of abnormal replication and splitting
caused by unstable gradients during the 3D Gaussian splatting process when
using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping
method. Extensive experiments show that our model significantly surpasses the
state-of-the-art models in terms of visual quality and performance. Code:
https://github.com/xingy038/Dreamer-XL.