ChatPaper.aiChatPaper

Dreamer XL : Vers la génération texte-3D haute résolution via le recalage de trajectoire

Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching

May 18, 2024
Auteurs: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI

Résumé

Dans ce travail, nous proposons une nouvelle méthode de Trajectory Score Matching (TSM) visant à résoudre le problème d'incohérence des pseudo-vérités terrain causé par l'erreur accumulée dans la méthode Interval Score Matching (ISM) lors de l'utilisation du processus d'inversion des modèles implicites de débruitage par diffusion (DDIM). Contrairement à ISM qui adopte le processus d'inversion de DDIM pour calculer sur un seul chemin, notre méthode TSM exploite le processus d'inversion de DDIM pour générer deux chemins à partir du même point de départ pour le calcul. Puisque les deux chemins partent du même point de départ, TSM peut réduire l'erreur accumulée par rapport à ISM, atténuant ainsi le problème d'incohérence des pseudo-vérités terrain. TSM améliore la stabilité et la cohérence des chemins générés par le modèle pendant le processus de distillation. Nous démontrons cela expérimentalement et montrons en outre qu'ISM est un cas particulier de TSM. De plus, pour optimiser le processus actuel d'optimisation multi-étapes allant du texte haute résolution à la génération 3D, nous adoptons Stable Diffusion XL pour le guidage. En réponse aux problèmes de réplication anormale et de division causés par des gradients instables pendant le processus de splatting Gaussien 3D lors de l'utilisation de Stable Diffusion XL, nous proposons une méthode de découpage des gradients pixel par pixel. Des expériences approfondies montrent que notre modèle surpasse significativement les modèles de pointe en termes de qualité visuelle et de performance. Code : https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that aims to solve the pseudo ground truth inconsistency problem caused by the accumulated error in Interval Score Matching (ISM) when using the Denoising Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the inversion process of DDIM to calculate on a single path, our TSM method leverages the inversion process of DDIM to generate two paths from the same starting point for calculation. Since both paths start from the same starting point, TSM can reduce the accumulated error compared to ISM, thus alleviating the problem of pseudo ground truth inconsistency. TSM enhances the stability and consistency of the model's generated paths during the distillation process. We demonstrate this experimentally and further show that ISM is a special case of TSM. Furthermore, to optimize the current multi-stage optimization process from high-resolution text to 3D generation, we adopt Stable Diffusion XL for guidance. In response to the issues of abnormal replication and splitting caused by unstable gradients during the 3D Gaussian splatting process when using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping method. Extensive experiments show that our model significantly surpasses the state-of-the-art models in terms of visual quality and performance. Code: https://github.com/xingy038/Dreamer-XL.

Summary

AI-Generated Summary

PDF170December 15, 2024