Улучшение генерации высококачественных 3D-моделей с использованием поэлементного ограничения градиентов
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
October 19, 2023
Авторы: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
cs.AI
Аннотация
Генерация высококачественных 3D-объектов остается сложной задачей, главным образом из-за ограниченной доступности полноценных аннотированных обучающих данных. Последние достижения направлены на преодоление этого ограничения путем использования моделей генерации изображений, предварительно обученных на обширных веб-наборах данных, с применением методов передачи знаний, таких как Score Distillation Sampling (SDS). Эффективное удовлетворение требований высококачественного рендеринга часто требует использования моделей, основанных на латентных представлениях, таких как Latent Diffusion Model (LDM). В рамках этого подхода возникает значительная проблема: для вычисления градиентов для отдельных пикселей изображения необходимо распространять градиенты из заданного латентного пространства через замороженные компоненты модели изображения, такие как VAE-кодировщик, используемый в LDM. Однако этот путь распространения градиентов никогда не оптимизировался и оставался неконтролируемым в процессе обучения. Мы обнаруживаем, что нерегулируемые градиенты негативно влияют на способность 3D-модели извлекать информацию, связанную с текстурой, из модели генерации изображений, что приводит к низкому качеству синтеза внешнего вида. Для решения этой глобальной проблемы мы предлагаем инновационную операцию, называемую Pixel-wise Gradient Clipping (PGC), предназначенную для бесшовной интеграции в существующие 3D-генеративные модели, тем самым повышая качество их синтеза. В частности, мы контролируем величину стохастических градиентов, эффективно ограничивая градиенты на уровне пикселей, сохраняя при этом важные направления градиентов, связанные с текстурой. Несмотря на простоту и минимальные дополнительные затраты, обширные эксперименты демонстрируют эффективность нашего PGC в улучшении производительности существующих 3D-генеративных моделей для высококачественного рендеринга объектов.
English
High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.