ChatPaper.aiChatPaper

Dreamer XL: 궤적 점수 매칭을 통한 고해상도 텍스트-3D 생성 기술

Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching

May 18, 2024
저자: Xingyu Miao, Haoran Duan, Varun Ojha, Jun Song, Tejal Shah, Yang Long, Rajiv Ranjan
cs.AI

초록

본 연구에서는 Denoising Diffusion Implicit Models(DDIM) 역변환 과정을 사용할 때 Interval Score Matching(ISM)에서 누적 오류로 인해 발생하는 가짜 실측 데이터(pseudo ground truth) 불일치 문제를 해결하기 위한 새로운 Trajectory Score Matching(TSM) 방법을 제안합니다. ISM이 DDIM의 역변환 과정을 통해 단일 경로를 계산하는 반면, 우리의 TSM 방법은 동일한 시작점에서 두 개의 경로를 생성하여 계산합니다. 두 경로가 동일한 시작점에서 출발하기 때문에 TSM은 ISM에 비해 누적 오류를 줄일 수 있으며, 이로 인해 가짜 실측 데이터 불일치 문제를 완화할 수 있습니다. TSM은 증류 과정에서 모델이 생성하는 경로의 안정성과 일관성을 향상시킵니다. 우리는 이를 실험적으로 입증하고, ISM이 TSM의 특수한 경우임을 추가로 보여줍니다. 또한, 고해상도 텍스트에서 3D 생성까지의 현재 다단계 최적화 과정을 최적화하기 위해 Stable Diffusion XL을 지침으로 채택합니다. Stable Diffusion XL을 사용할 때 3D Gaussian splatting 과정에서 불안정한 그래디언트로 인해 발생하는 비정상적인 복제 및 분할 문제에 대응하기 위해, 픽셀 단위 그래디언트 클리핑 방법을 제안합니다. 광범위한 실험을 통해 우리의 모델이 시각적 품질과 성능 측면에서 최신 모델을 크게 능가함을 보여줍니다. 코드: https://github.com/xingy038/Dreamer-XL.
English
In this work, we propose a novel Trajectory Score Matching (TSM) method that aims to solve the pseudo ground truth inconsistency problem caused by the accumulated error in Interval Score Matching (ISM) when using the Denoising Diffusion Implicit Models (DDIM) inversion process. Unlike ISM which adopts the inversion process of DDIM to calculate on a single path, our TSM method leverages the inversion process of DDIM to generate two paths from the same starting point for calculation. Since both paths start from the same starting point, TSM can reduce the accumulated error compared to ISM, thus alleviating the problem of pseudo ground truth inconsistency. TSM enhances the stability and consistency of the model's generated paths during the distillation process. We demonstrate this experimentally and further show that ISM is a special case of TSM. Furthermore, to optimize the current multi-stage optimization process from high-resolution text to 3D generation, we adopt Stable Diffusion XL for guidance. In response to the issues of abnormal replication and splitting caused by unstable gradients during the 3D Gaussian splatting process when using Stable Diffusion XL, we propose a pixel-by-pixel gradient clipping method. Extensive experiments show that our model significantly surpasses the state-of-the-art models in terms of visual quality and performance. Code: https://github.com/xingy038/Dreamer-XL.

Summary

AI-Generated Summary

PDF170December 15, 2024