ChatPaper.aiChatPaper

Dreamer XL: Op weg naar hoogwaardige tekst-naar-3D-generatie via trajectscore-matching

Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching

May 18, 2024
Auteurs: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI

Samenvatting

In dit werk stellen we een nieuwe Trajectory Score Matching (TSM)-methode voor die beoogt het probleem van inconsistentie van pseudo-grondwaarheid op te lossen, veroorzaakt door de opgestapelde fout in Interval Score Matching (ISM) bij het gebruik van het Denoising Diffusion Implicit Models (DDIM)-inversieproces. In tegenstelling tot ISM, dat het inversieproces van DDIM gebruikt om op een enkel pad te berekenen, maakt onze TSM-methode gebruik van het inversieproces van DDIM om twee paden vanuit hetzelfde startpunt te genereren voor berekening. Omdat beide paden vanuit hetzelfde startpunt beginnen, kan TSM de opgestapelde fout verminderen in vergelijking met ISM, waardoor het probleem van inconsistentie van pseudo-grondwaarheid wordt verlicht. TSM verbetert de stabiliteit en consistentie van de door het model gegenereerde paden tijdens het distillatieproces. We demonstreren dit experimenteel en tonen verder aan dat ISM een speciaal geval is van TSM. Bovendien nemen we Stable Diffusion XL over als leidraad om het huidige meerfasige optimalisatieproces van hoge-resolutietekst naar 3D-generatie te optimaliseren. Als reactie op de problemen van abnormale replicatie en splitsing veroorzaakt door onstabiele gradienten tijdens het 3D Gaussian splatting-proces bij het gebruik van Stable Diffusion XL, stellen we een pixel-voor-pixel gradient clipping-methode voor. Uitgebreide experimenten tonen aan dat ons model de state-of-the-art modellen aanzienlijk overtreft wat betreft visuele kwaliteit en prestaties. Code: https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that aims to solve the pseudo ground truth inconsistency problem caused by the accumulated error in Interval Score Matching (ISM) when using the Denoising Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the inversion process of DDIM to calculate on a single path, our TSM method leverages the inversion process of DDIM to generate two paths from the same starting point for calculation. Since both paths start from the same starting point, TSM can reduce the accumulated error compared to ISM, thus alleviating the problem of pseudo ground truth inconsistency. TSM enhances the stability and consistency of the model's generated paths during the distillation process. We demonstrate this experimentally and further show that ISM is a special case of TSM. Furthermore, to optimize the current multi-stage optimization process from high-resolution text to 3D generation, we adopt Stable Diffusion XL for guidance. In response to the issues of abnormal replication and splitting caused by unstable gradients during the 3D Gaussian splatting process when using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping method. Extensive experiments show that our model significantly surpasses the state-of-the-art models in terms of visual quality and performance. Code: https://github.com/xingy038/Dreamer-XL.
PDF160January 24, 2026