Amélioration de la génération 3D haute résolution par découpage de gradient pixel par pixel
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
October 19, 2023
Auteurs: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
cs.AI
Résumé
La génération d'objets 3D haute résolution reste une tâche complexe, principalement en raison de la disponibilité limitée de données d'entraînement annotées et exhaustives. Les avancées récentes visent à surmonter cette contrainte en exploitant des modèles génératifs d'images, pré-entraînés sur de vastes ensembles de données web soigneusement sélectionnés, en utilisant des techniques de transfert de connaissances comme le Score Distillation Sampling (SDS). Pour répondre efficacement aux exigences de rendu haute résolution, il est souvent nécessaire d'adopter des modèles basés sur des représentations latentes, tels que le Latent Diffusion Model (LDM). Dans ce cadre, un défi majeur se pose : pour calculer les gradients des pixels individuels, il est nécessaire de rétropropager les gradients depuis l'espace latent désigné à travers les composants figés du modèle d'image, comme l'encodeur VAE utilisé dans le LDM. Cependant, cette voie de propagation des gradients n'a jamais été optimisée, restant non contrôlée pendant l'entraînement. Nous constatons que les gradients non régulés affectent négativement la capacité du modèle 3D à acquérir des informations liées à la texture à partir du modèle génératif d'image, entraînant une synthèse d'apparence de mauvaise qualité. Pour relever ce défi global, nous proposons une opération innovante appelée Pixel-wise Gradient Clipping (PGC), conçue pour s'intégrer de manière transparente dans les modèles génératifs 3D existants, améliorant ainsi leur qualité de synthèse. Plus précisément, nous contrôlons l'amplitude des gradients stochastiques en limitant efficacement les gradients par pixel, tout en préservant les directions de gradients cruciales liées à la texture. Malgré sa simplicité et son coût supplémentaire minimal, des expériences approfondies démontrent l'efficacité de notre PGC pour améliorer les performances des modèles génératifs 3D existants dans le rendu d'objets haute résolution.
English
High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.