Dreamer XL: 軌跡スコアマッチングによる高解像度テキスト-to-3D生成へのアプローチ
Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching
May 18, 2024
著者: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI
要旨
本研究では、Denoising Diffusion Implicit Models(DDIM)の反転プロセスを使用する際に、Interval Score Matching(ISM)における累積誤差によって引き起こされる疑似グラウンドトゥルースの不整合問題を解決するための新しいTrajectory Score Matching(TSM)手法を提案します。ISMが単一のパス上で計算を行うためにDDIMの反転プロセスを採用するのに対し、我々のTSM手法は、同じ開始点から2つのパスを生成して計算を行うためにDDIMの反転プロセスを活用します。両方のパスが同じ開始点から始まるため、TSMはISMと比較して累積誤差を減少させ、疑似グラウンドトゥルースの不整合問題を軽減することができます。TSMは、蒸留プロセス中にモデルが生成するパスの安定性と一貫性を向上させます。これを実験的に実証し、さらにISMがTSMの特殊なケースであることを示します。さらに、高解像度テキストから3D生成までの現在の多段階最適化プロセスを最適化するために、Stable Diffusion XLをガイダンスとして採用します。Stable Diffusion XLを使用する際に3D Gaussian splattingプロセス中に不安定な勾配によって引き起こされる異常な複製や分割の問題に対応するために、ピクセル単位の勾配クリッピング手法を提案します。大規模な実験により、我々のモデルが視覚品質と性能の両面で最先端のモデルを大幅に上回ることを示します。コード: https://github.com/xingy038/Dreamer-XL。
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that
aims to solve the pseudo ground truth inconsistency problem caused by the
accumulated error in Interval Score Matching (ISM) when using the Denoising
Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the
inversion process of DDIM to calculate on a single path, our TSM method
leverages the inversion process of DDIM to generate two paths from the same
starting point for calculation. Since both paths start from the same starting
point, TSM can reduce the accumulated error compared to ISM, thus alleviating
the problem of pseudo ground truth inconsistency. TSM enhances the stability
and consistency of the model's generated paths during the distillation process.
We demonstrate this experimentally and further show that ISM is a special case
of TSM. Furthermore, to optimize the current multi-stage optimization process
from high-resolution text to 3D generation, we adopt Stable Diffusion XL for
guidance. In response to the issues of abnormal replication and splitting
caused by unstable gradients during the 3D Gaussian splatting process when
using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping
method. Extensive experiments show that our model significantly surpasses the
state-of-the-art models in terms of visual quality and performance. Code:
https://github.com/xingy038/Dreamer-XL.Summary
AI-Generated Summary