ChatPaper.aiChatPaper

Mejorando la Generación 3D de Alta Resolución mediante Recorte de Gradiente a Nivel de Píxel

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

October 19, 2023
Autores: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
cs.AI

Resumen

La generación de objetos 3D de alta resolución sigue siendo una tarea desafiante, principalmente debido a la disponibilidad limitada de datos de entrenamiento anotados y completos. Los avances recientes han buscado superar esta limitación aprovechando modelos generativos de imágenes, preentrenados en extensos conjuntos de datos web curados, utilizando técnicas de transferencia de conocimiento como el Muestreo de Distilación de Puntajes (SDS). Abordar eficientemente los requisitos de renderizado de alta resolución a menudo requiere la adopción de modelos basados en representaciones latentes, como el Modelo de Difusión Latente (LDM). En este marco, surge un desafío significativo: para calcular gradientes para píxeles individuales de la imagen, es necesario propagar los gradientes desde el espacio latente designado a través de los componentes congelados del modelo de imagen, como el codificador VAE utilizado dentro del LDM. Sin embargo, esta ruta de propagación de gradientes nunca ha sido optimizada, permaneciendo sin control durante el entrenamiento. Descubrimos que los gradientes no regulados afectan negativamente la capacidad del modelo 3D para adquirir información relacionada con la textura del modelo generativo de imágenes, lo que resulta en una síntesis de apariencia de baja calidad. Para abordar este desafío general, proponemos una operación innovadora denominada Recorte de Gradiente por Píxel (PGC), diseñada para integrarse sin problemas en los modelos generativos 3D existentes, mejorando así su calidad de síntesis. Específicamente, controlamos la magnitud de los gradientes estocásticos recortando eficientemente los gradientes por píxel, mientras preservamos las direcciones cruciales de los gradientes relacionados con la textura. A pesar de su simplicidad y costo adicional mínimo, experimentos extensos demuestran la eficacia de nuestro PGC para mejorar el rendimiento de los modelos generativos 3D existentes en la representación de objetos de alta resolución.
English
High-resolution 3D object generation remains a challenging task primarily due to the limited availability of comprehensive annotated training data. Recent advancements have aimed to overcome this constraint by harnessing image generative models, pretrained on extensive curated web datasets, using knowledge transfer techniques like Score Distillation Sampling (SDS). Efficiently addressing the requirements of high-resolution rendering often necessitates the adoption of latent representation-based models, such as the Latent Diffusion Model (LDM). In this framework, a significant challenge arises: To compute gradients for individual image pixels, it is necessary to backpropagate gradients from the designated latent space through the frozen components of the image model, such as the VAE encoder used within LDM. However, this gradient propagation pathway has never been optimized, remaining uncontrolled during training. We find that the unregulated gradients adversely affect the 3D model's capacity in acquiring texture-related information from the image generative model, leading to poor quality appearance synthesis. To address this overarching challenge, we propose an innovative operation termed Pixel-wise Gradient Clipping (PGC) designed for seamless integration into existing 3D generative models, thereby enhancing their synthesis quality. Specifically, we control the magnitude of stochastic gradients by clipping the pixel-wise gradients efficiently, while preserving crucial texture-related gradient directions. Despite this simplicity and minimal extra cost, extensive experiments demonstrate the efficacy of our PGC in enhancing the performance of existing 3D generative models for high-resolution object rendering.
PDF51December 15, 2024