Hash3D: Aceleração Livre de Treinamento para Geração 3D
Hash3D: Training-free Acceleration for 3D Generation
April 9, 2024
Autores: Xingyi Yang, Xinchao Wang
cs.AI
Resumo
A evolução da modelagem generativa 3D tem sido notavelmente impulsionada pela adoção de modelos de difusão 2D. Apesar desse progresso, o processo de otimização em si representa um obstáculo crítico para a eficiência. Neste artigo, apresentamos o Hash3D, uma aceleração universal para geração 3D sem treinamento de modelos. O cerne do Hash3D é a percepção de que a redundância de mapas de características é prevalente em imagens renderizadas a partir de posições de câmera e intervalos de tempo de difusão próximos. Ao efetivamente hashear e reutilizar esses mapas de características em intervalos de tempo e ângulos de câmera vizinhos, o Hash3D previne substancialmente cálculos redundantes, acelerando assim a inferência do modelo de difusão em tarefas de geração 3D. Isso é alcançado por meio de uma técnica de hashing baseada em grade adaptativa. Surpreendentemente, esse mecanismo de compartilhamento de características não apenas acelera a geração, mas também melhora a suavidade e a consistência visual dos objetos 3D sintetizados. Nossos experimentos, abrangendo 5 modelos de texto-para-3D e 3 modelos de imagem-para-3D, demonstram a versatilidade do Hash3D em acelerar a otimização, aumentando a eficiência em 1,3 a 4 vezes. Além disso, a integração do Hash3D com o splatting de Gaussianas 3D acelera significativamente a criação de modelos 3D, reduzindo o processamento de texto-para-3D para cerca de 10 minutos e a conversão de imagem-para-3D para aproximadamente 30 segundos. A página do projeto está em https://adamdad.github.io/hash3D/.
English
The evolution of 3D generative modeling has been notably propelled by the
adoption of 2D diffusion models. Despite this progress, the cumbersome
optimization process per se presents a critical hurdle to efficiency. In this
paper, we introduce Hash3D, a universal acceleration for 3D generation without
model training. Central to Hash3D is the insight that feature-map redundancy is
prevalent in images rendered from camera positions and diffusion time-steps in
close proximity. By effectively hashing and reusing these feature maps across
neighboring timesteps and camera angles, Hash3D substantially prevents
redundant calculations, thus accelerating the diffusion model's inference in 3D
generation tasks. We achieve this through an adaptive grid-based hashing.
Surprisingly, this feature-sharing mechanism not only speed up the generation
but also enhances the smoothness and view consistency of the synthesized 3D
objects. Our experiments covering 5 text-to-3D and 3 image-to-3D models,
demonstrate Hash3D's versatility to speed up optimization, enhancing efficiency
by 1.3 to 4 times. Additionally, Hash3D's integration with 3D Gaussian
splatting largely speeds up 3D model creation, reducing text-to-3D processing
to about 10 minutes and image-to-3D conversion to roughly 30 seconds. The
project page is at https://adamdad.github.io/hash3D/.