Miglioramento della Generazione 3D ad Alta Risoluzione attraverso il Clipping dei Gradienti Pixel-wise
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
October 19, 2023
Autori: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
cs.AI
Abstract
La generazione di oggetti 3D ad alta risoluzione rimane un compito impegnativo principalmente a causa della limitata disponibilità di dati di training annotati e completi. I recenti progressi hanno cercato di superare questo vincolo sfruttando modelli generativi di immagini, pre-addestrati su ampi dataset web curati, utilizzando tecniche di trasferimento di conoscenza come il Score Distillation Sampling (SDS). Affrontare in modo efficiente i requisiti del rendering ad alta risoluzione spesso richiede l'adozione di modelli basati su rappresentazioni latenti, come il Latent Diffusion Model (LDM). In questo contesto, emerge una sfida significativa: per calcolare i gradienti per i singoli pixel dell'immagine, è necessario propagare all'indietro i gradienti dallo spazio latente designato attraverso i componenti congelati del modello di immagine, come l'encoder VAE utilizzato all'interno dell'LDM. Tuttavia, questo percorso di propagazione dei gradienti non è mai stato ottimizzato, rimanendo incontrollato durante l'addestramento. Abbiamo osservato che i gradienti non regolati influiscono negativamente sulla capacità del modello 3D di acquisire informazioni relative alla texture dal modello generativo di immagini, portando a una sintesi di aspetto di scarsa qualità. Per affrontare questa sfida generale, proponiamo un'operazione innovativa denominata Pixel-wise Gradient Clipping (PGC), progettata per un'integrazione senza soluzione di continuità nei modelli generativi 3D esistenti, migliorando così la qualità della sintesi. Nello specifico, controlliamo l'entità dei gradienti stocastici limitando in modo efficiente i gradienti a livello di pixel, preservando al contempo le direzioni cruciali dei gradienti relative alla texture. Nonostante questa semplicità e il costo aggiuntivo minimo, esperimenti estesi dimostrano l'efficacia del nostro PGC nel migliorare le prestazioni dei modelli generativi 3D esistenti per il rendering di oggetti ad alta risoluzione.
English
High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.