Verbetering van hoogwaardige 3D-generatie via pixelgewijze gradientclipping
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
October 19, 2023
Auteurs: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
cs.AI
Samenvatting
Het genereren van hoogwaardige 3D-objecten blijft een uitdagende taak, voornamelijk vanwege de beperkte beschikbaarheid van uitgebreide geannoteerde trainingsdata. Recente vooruitgang heeft geprobeerd deze beperking te overwinnen door gebruik te maken van beeldgeneratieve modellen, vooraf getraind op uitgebreide, gecureerde webdatasets, met behulp van kennisoverdrachtstechnieken zoals Score Distillation Sampling (SDS). Het efficiënt aanpakken van de vereisten voor hoogwaardige rendering vereist vaak de adoptie van latenterepresentatie-gebaseerde modellen, zoals het Latent Diffusion Model (LDM). In dit kader ontstaat een belangrijke uitdaging: Om gradiënten voor individuele beeldpixels te berekenen, is het nodig om gradiënten terug te propageren vanuit de aangewezen latente ruimte door de bevroren componenten van het beeldmodel, zoals de VAE-encoder die binnen LDM wordt gebruikt. Deze gradiëntpropagatieroute is echter nooit geoptimaliseerd en blijft ongereguleerd tijdens de training. We constateren dat de ongereguleerde gradiënten een negatief effect hebben op het vermogen van het 3D-model om textuurgerelateerde informatie te verwerven uit het beeldgeneratieve model, wat resulteert in een slechte kwaliteit van de uiterlijk-synthese. Om deze overkoepelende uitdaging aan te pakken, stellen we een innovatieve operatie voor genaamd Pixel-wise Gradient Clipping (PGC), ontworpen voor naadloze integratie in bestaande 3D-generatieve modellen, waardoor hun synthesekwaliteit wordt verbeterd. Specifiek controleren we de grootte van stochastische gradiënten door de pixelgewijze gradiënten efficiënt te begrenzen, terwijl cruciale textuurgerelateerde gradiëntrichtingen behouden blijven. Ondanks deze eenvoud en minimale extra kosten, tonen uitgebreide experimenten de effectiviteit van onze PGC aan in het verbeteren van de prestaties van bestaande 3D-generatieve modellen voor hoogwaardige objectrendering.
English
High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.