Hash3D: 3D 생성을 위한 학습 없는 가속화 기술
Hash3D: Training-free Acceleration for 3D Generation
April 9, 2024
저자: Xingyi Yang, Xinchao Wang
cs.AI
초록
3D 생성 모델링의 진화는 2D 확산 모델의 도입으로 크게 촉진되었습니다. 이러한 진전에도 불구하고, 번거로운 최적화 과정 자체가 효율성에 있어 중요한 장애물로 남아 있습니다. 본 논문에서는 모델 학습 없이 3D 생성을 가속화하는 범용적인 방법인 Hash3D를 소개합니다. Hash3D의 핵심은 근접한 카메라 위치와 확산 시간 단계에서 렌더링된 이미지들 간에 특징 맵의 중복이 빈번하게 발생한다는 통찰에 기반합니다. Hash3D는 이러한 특징 맵을 인접한 시간 단계와 카메라 각도에 걸쳐 효과적으로 해싱하고 재사용함으로써, 불필요한 계산을 상당히 줄여 3D 생성 작업에서 확산 모델의 추론 속도를 크게 향상시킵니다. 이는 적응형 그리드 기반 해싱을 통해 달성됩니다. 놀랍게도, 이러한 특징 공유 메커니즘은 생성 속도를 높일 뿐만 아니라 합성된 3D 객체의 부드러움과 시각적 일관성도 개선합니다. 우리는 5개의 텍스트-3D 모델과 3개의 이미지-3D 모델을 대상으로 한 실험을 통해 Hash3D가 최적화 속도를 1.3배에서 4배까지 향상시키는 다재다능함을 입증했습니다. 또한, Hash3D를 3D 가우시안 스플래팅과 통합함으로써 3D 모델 생성 속도를 크게 단축시켜, 텍스트-3D 처리 시간을 약 10분으로, 이미지-3D 변환 시간을 약 30초로 줄였습니다. 프로젝트 페이지는 https://adamdad.github.io/hash3D/에서 확인할 수 있습니다.
English
The evolution of 3D generative modeling has been notably propelled by the
adoption of 2D diffusion models. Despite this progress, the cumbersome
optimization process per se presents a critical hurdle to efficiency. In this
paper, we introduce Hash3D, a universal acceleration for 3D generation without
model training. Central to Hash3D is the insight that feature-map redundancy is
prevalent in images rendered from camera positions and diffusion time-steps in
close proximity. By effectively hashing and reusing these feature maps across
neighboring timesteps and camera angles, Hash3D substantially prevents
redundant calculations, thus accelerating the diffusion model's inference in 3D
generation tasks. We achieve this through an adaptive grid-based hashing.
Surprisingly, this feature-sharing mechanism not only speed up the generation
but also enhances the smoothness and view consistency of the synthesized 3D
objects. Our experiments covering 5 text-to-3D and 3 image-to-3D models,
demonstrate Hash3D's versatility to speed up optimization, enhancing efficiency
by 1.3 to 4 times. Additionally, Hash3D's integration with 3D Gaussian
splatting largely speeds up 3D model creation, reducing text-to-3D processing
to about 10 minutes and image-to-3D conversion to roughly 30 seconds. The
project page is at https://adamdad.github.io/hash3D/.Summary
AI-Generated Summary