Verbesserung der hochauflösenden 3D-Generierung durch pixelweises Gradienten-Clipping
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
October 19, 2023
Autoren: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
cs.AI
Zusammenfassung
Die Erzeugung hochauflösender 3D-Objekte bleibt eine herausfordernde Aufgabe, hauptsächlich aufgrund der begrenzten Verfügbarkeit umfassend annotierter Trainingsdaten. Jüngste Fortschritte zielen darauf ab, diese Einschränkung zu überwinden, indem Bildgenerierungsmodelle genutzt werden, die auf umfangreichen, kuratierten Webdatensätzen vortrainiert sind, und dabei Techniken des Wissenstransfers wie Score Distillation Sampling (SDS) eingesetzt werden. Die effiziente Bewältigung der Anforderungen an hochauflösendes Rendering erfordert oft die Verwendung von Modellen, die auf latenten Repräsentationen basieren, wie das Latent Diffusion Model (LDM). In diesem Rahmen ergibt sich eine wesentliche Herausforderung: Um Gradienten für einzelne Bildpixel zu berechnen, ist es notwendig, Gradienten vom festgelegten latenten Raum durch die eingefrorenen Komponenten des Bildmodells zurückzupropagieren, wie beispielsweise den VAE-Encoder, der innerhalb des LDM verwendet wird. Dieser Gradientenpropagationspfad wurde jedoch nie optimiert und bleibt während des Trainings unkontrolliert. Wir stellen fest, dass die unregulierten Gradienten die Fähigkeit des 3D-Modells beeinträchtigen, texturbezogene Informationen aus dem Bildgenerierungsmodell zu erlernen, was zu einer schlechten Qualität der Erscheinungssynthese führt. Um diese übergreifende Herausforderung zu bewältigen, schlagen wir eine innovative Operation namens Pixel-wise Gradient Clipping (PGC) vor, die für die nahtlose Integration in bestehende 3D-Generierungsmodelle entwickelt wurde und dadurch deren Synthesequalität verbessert. Konkret kontrollieren wir die Größe der stochastischen Gradienten, indem wir die pixelweisen Gradienten effizient beschneiden, während wir wichtige texturbezogene Gradientenrichtungen beibehalten. Trotz dieser Einfachheit und des minimalen zusätzlichen Aufwands zeigen umfangreiche Experimente die Wirksamkeit unseres PGC bei der Verbesserung der Leistung bestehender 3D-Generierungsmodelle für das hochauflösende Rendering von Objekten.
English
High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.