ChatPaper.aiChatPaper

Dreamer XL: Auf dem Weg zur hochauflösenden Text-zu-3D-Generierung mittels Trajektorie-Score-Anpassung.

Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching

May 18, 2024
Autoren: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI

Zusammenfassung

In dieser Arbeit schlagen wir eine neuartige Methode namens Trajectory Score Matching (TSM) vor, die darauf abzielt, das Problem der inkonsistenten Pseudo-Grundwahrheit zu lösen, das durch den kumulierten Fehler beim Interval Score Matching (ISM) im Zusammenhang mit dem Umkehrprozess der Denoising Diffusion Implicit Models (DDIM) verursacht wird. Im Gegensatz zu ISM, das den Umkehrprozess von DDIM zur Berechnung auf einem einzigen Pfad übernimmt, nutzt unsere TSM-Methode den Umkehrprozess von DDIM, um zwei Pfade vom gleichen Ausgangspunkt für die Berechnung zu generieren. Da beide Pfade vom gleichen Ausgangspunkt starten, kann TSM im Vergleich zu ISM den kumulierten Fehler reduzieren und somit das Problem der inkonsistenten Pseudo-Grundwahrheit lindern. TSM verbessert die Stabilität und Konsistenz der generierten Pfade des Modells während des Destillationsprozesses. Wir zeigen dies experimentell und zeigen weiterhin, dass ISM ein Spezialfall von TSM ist. Darüber hinaus verwenden wir zur Optimierung des aktuellen mehrstufigen Optimierungsprozesses von hochauflösendem Text zur 3D-Generierung Stable Diffusion XL als Leitfaden. Als Reaktion auf die Probleme der abnormalen Replikation und Aufspaltung, die durch instabile Gradienten während des 3D-Gaussian-Splatting-Prozesses bei Verwendung von Stable Diffusion XL verursacht werden, schlagen wir eine Pixel-für-Pixel-Gradientenbeschneidungsmethode vor. Umfangreiche Experimente zeigen, dass unser Modell in Bezug auf visuelle Qualität und Leistung signifikant die aktuellen Modelle übertrifft. Code: https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that aims to solve the pseudo ground truth inconsistency problem caused by the accumulated error in Interval Score Matching (ISM) when using the Denoising Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the inversion process of DDIM to calculate on a single path, our TSM method leverages the inversion process of DDIM to generate two paths from the same starting point for calculation. Since both paths start from the same starting point, TSM can reduce the accumulated error compared to ISM, thus alleviating the problem of pseudo ground truth inconsistency. TSM enhances the stability and consistency of the model's generated paths during the distillation process. We demonstrate this experimentally and further show that ISM is a special case of TSM. Furthermore, to optimize the current multi-stage optimization process from high-resolution text to 3D generation, we adopt Stable Diffusion XL for guidance. In response to the issues of abnormal replication and splitting caused by unstable gradients during the 3D Gaussian splatting process when using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping method. Extensive experiments show that our model significantly surpasses the state-of-the-art models in terms of visual quality and performance. Code: https://github.com/xingy038/Dreamer-XL.

Summary

AI-Generated Summary

PDF170December 15, 2024