Aprimorando a Geração 3D de Alta Resolução por meio de Recorte de Gradiente Pixel a Pixel
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
October 19, 2023
Autores: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
cs.AI
Resumo
A geração de objetos 3D de alta resolução continua sendo uma tarefa desafiadora, principalmente devido à disponibilidade limitada de dados de treinamento anotados e abrangentes. Avanços recentes têm buscado superar essa limitação ao aproveitar modelos generativos de imagens, pré-treinados em extensos conjuntos de dados da web curados, utilizando técnicas de transferência de conhecimento como o Score Distillation Sampling (SDS). Atender eficientemente aos requisitos de renderização de alta resolução frequentemente exige a adoção de modelos baseados em representações latentes, como o Latent Diffusion Model (LDM). Nesse contexto, surge um desafio significativo: para calcular gradientes para pixels individuais de imagem, é necessário retropropagar gradientes do espaço latente designado através dos componentes congelados do modelo de imagem, como o codificador VAE utilizado no LDM. No entanto, esse caminho de propagação de gradientes nunca foi otimizado, permanecendo descontrolado durante o treinamento. Descobrimos que os gradientes não regulados afetam negativamente a capacidade do modelo 3D de adquirir informações relacionadas à textura a partir do modelo generativo de imagens, resultando em uma síntese de aparência de baixa qualidade. Para enfrentar esse desafio abrangente, propomos uma operação inovadora denominada Pixel-wise Gradient Clipping (PGC), projetada para integração perfeita em modelos generativos 3D existentes, melhorando assim sua qualidade de síntese. Especificamente, controlamos a magnitude dos gradientes estocásticos ao recortar eficientemente os gradientes por pixel, preservando direções cruciais dos gradientes relacionados à textura. Apesar dessa simplicidade e custo extra mínimo, experimentos extensivos demonstram a eficácia do nosso PGC em melhorar o desempenho de modelos generativos 3D existentes para renderização de objetos de alta resolução.
English
High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.