ChatPaper.aiChatPaper

Hash3D: Aceleração Livre de Treinamento para Geração 3D

Hash3D: Training-free Acceleration for 3D Generation

April 9, 2024
Autores: Xingyi Yang, Xinchao Wang
cs.AI

Resumo

A evolução da modelagem generativa 3D tem sido notavelmente impulsionada pela adoção de modelos de difusão 2D. Apesar desse progresso, o processo de otimização em si representa um obstáculo crítico para a eficiência. Neste artigo, apresentamos o Hash3D, uma aceleração universal para geração 3D sem treinamento de modelos. O cerne do Hash3D é a percepção de que a redundância de mapas de características é prevalente em imagens renderizadas a partir de posições de câmera e intervalos de tempo de difusão próximos. Ao efetivamente hashear e reutilizar esses mapas de características em intervalos de tempo e ângulos de câmera vizinhos, o Hash3D previne substancialmente cálculos redundantes, acelerando assim a inferência do modelo de difusão em tarefas de geração 3D. Isso é alcançado por meio de uma técnica de hashing baseada em grade adaptativa. Surpreendentemente, esse mecanismo de compartilhamento de características não apenas acelera a geração, mas também melhora a suavidade e a consistência visual dos objetos 3D sintetizados. Nossos experimentos, abrangendo 5 modelos de texto-para-3D e 3 modelos de imagem-para-3D, demonstram a versatilidade do Hash3D em acelerar a otimização, aumentando a eficiência em 1,3 a 4 vezes. Além disso, a integração do Hash3D com o splatting de Gaussianas 3D acelera significativamente a criação de modelos 3D, reduzindo o processamento de texto-para-3D para cerca de 10 minutos e a conversão de imagem-para-3D para aproximadamente 30 segundos. A página do projeto está em https://adamdad.github.io/hash3D/.
English
The evolution of 3D generative modeling has been notably propelled by the adoption of 2D diffusion models. Despite this progress, the cumbersome optimization process per se presents a critical hurdle to efficiency. In this paper, we introduce Hash3D, a universal acceleration for 3D generation without model training. Central to Hash3D is the insight that feature-map redundancy is prevalent in images rendered from camera positions and diffusion time-steps in close proximity. By effectively hashing and reusing these feature maps across neighboring timesteps and camera angles, Hash3D substantially prevents redundant calculations, thus accelerating the diffusion model's inference in 3D generation tasks. We achieve this through an adaptive grid-based hashing. Surprisingly, this feature-sharing mechanism not only speed up the generation but also enhances the smoothness and view consistency of the synthesized 3D objects. Our experiments covering 5 text-to-3D and 3 image-to-3D models, demonstrate Hash3D's versatility to speed up optimization, enhancing efficiency by 1.3 to 4 times. Additionally, Hash3D's integration with 3D Gaussian splatting largely speeds up 3D model creation, reducing text-to-3D processing to about 10 minutes and image-to-3D conversion to roughly 30 seconds. The project page is at https://adamdad.github.io/hash3D/.
PDF130December 15, 2024