Miglioramento della Generazione 3D ad Alta Risoluzione attraverso il Clipping dei Gradienti Pixel-wise

Abstract

La generazione di oggetti 3D ad alta risoluzione rimane un compito impegnativo principalmente a causa della limitata disponibilità di dati di training annotati e completi. I recenti progressi hanno cercato di superare questo vincolo sfruttando modelli generativi di immagini, pre-addestrati su ampi dataset web curati, utilizzando tecniche di trasferimento di conoscenza come il Score Distillation Sampling (SDS). Affrontare in modo efficiente i requisiti del rendering ad alta risoluzione spesso richiede l'adozione di modelli basati su rappresentazioni latenti, come il Latent Diffusion Model (LDM). In questo contesto, emerge una sfida significativa: per calcolare i gradienti per i singoli pixel dell'immagine, è necessario propagare all'indietro i gradienti dallo spazio latente designato attraverso i componenti congelati del modello di immagine, come l'encoder VAE utilizzato all'interno dell'LDM. Tuttavia, questo percorso di propagazione dei gradienti non è mai stato ottimizzato, rimanendo incontrollato durante l'addestramento. Abbiamo osservato che i gradienti non regolati influiscono negativamente sulla capacità del modello 3D di acquisire informazioni relative alla texture dal modello generativo di immagini, portando a una sintesi di aspetto di scarsa qualità. Per affrontare questa sfida generale, proponiamo un'operazione innovativa denominata Pixel-wise Gradient Clipping (PGC), progettata per un'integrazione senza soluzione di continuità nei modelli generativi 3D esistenti, migliorando così la qualità della sintesi. Nello specifico, controlliamo l'entità dei gradienti stocastici limitando in modo efficiente i gradienti a livello di pixel, preservando al contempo le direzioni cruciali dei gradienti relative alla texture. Nonostante questa semplicità e il costo aggiuntivo minimo, esperimenti estesi dimostrano l'efficacia del nostro PGC nel migliorare le prestazioni dei modelli generativi 3D esistenti per il rendering di oggetti ad alta risoluzione.

English

High-resolution 3D object generation remains a challenging task primarily due to the limited availability of comprehensive annotated training data. Recent advancements have aimed to overcome this constraint by harnessing image generative models, pretrained on extensive curated web datasets, using knowledge transfer techniques like Score Distillation Sampling (SDS). Efficiently addressing the requirements of high-resolution rendering often necessitates the adoption of latent representation-based models, such as the Latent Diffusion Model (LDM). In this framework, a significant challenge arises: To compute gradients for individual image pixels, it is necessary to backpropagate gradients from the designated latent space through the frozen components of the image model, such as the VAE encoder used within LDM. However, this gradient propagation pathway has never been optimized, remaining uncontrolled during training. We find that the unregulated gradients adversely affect the 3D model's capacity in acquiring texture-related information from the image generative model, leading to poor quality appearance synthesis. To address this overarching challenge, we propose an innovative operation termed Pixel-wise Gradient Clipping (PGC) designed for seamless integration into existing 3D generative models, thereby enhancing their synthesis quality. Specifically, we control the magnitude of stochastic gradients by clipping the pixel-wise gradients efficiently, while preserving crucial texture-related gradient directions. Despite this simplicity and minimal extra cost, extensive experiments demonstrate the efficacy of our PGC in enhancing the performance of existing 3D generative models for high-resolution object rendering.

Miglioramento della Generazione 3D ad Alta Risoluzione attraverso il Clipping dei Gradienti Pixel-wise

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

Abstract

Support