Hash3D: Trainingsvrije versnelling voor 3D-generatie
Hash3D: Training-free Acceleration for 3D Generation
April 9, 2024
Auteurs: Xingyi Yang, Xinchao Wang
cs.AI
Samenvatting
De evolutie van 3D-generatieve modellering is aanzienlijk versneld door de adoptie van 2D-diffusiemodellen. Ondanks deze vooruitgang vormt het omslachtige optimalisatieproces zelf een kritieke hindernis voor de efficiëntie. In dit artikel introduceren we Hash3D, een universele versnelling voor 3D-generatie zonder modeltraining. Centraal in Hash3D staat het inzicht dat redundantie in feature-maps veel voorkomt in afbeeldingen die worden gerenderd vanuit cameraposities en diffusie-tijdstappen die dicht bij elkaar liggen. Door deze feature-maps effectief te hashen en te hergebruiken over naburige tijdstappen en camerahoeken, voorkomt Hash3D aanzienlijk overbodige berekeningen, waardoor de inferentie van het diffusiemodel in 3D-generatietaken wordt versneld. Dit bereiken we door middel van een adaptief rastergebaseerd hashen. Verrassend genoeg verbetert dit mechanisme voor het delen van features niet alleen de snelheid van de generatie, maar ook de gladheid en consistentie van het gezichtspunt van de gesynthetiseerde 3D-objecten. Onze experimenten, die 5 tekst-naar-3D en 3 beeld-naar-3D modellen omvatten, demonstreren de veelzijdigheid van Hash3D om optimalisatie te versnellen, waardoor de efficiëntie met 1,3 tot 4 keer wordt verbeterd. Bovendien versnelt de integratie van Hash3D met 3D Gaussian splatting de creatie van 3D-modellen aanzienlijk, waardoor tekst-naar-3D-verwerking wordt teruggebracht tot ongeveer 10 minuten en beeld-naar-3D-conversie tot ongeveer 30 seconden. De projectpagina is te vinden op https://adamdad.github.io/hash3D/.
English
The evolution of 3D generative modeling has been notably propelled by the
adoption of 2D diffusion models. Despite this progress, the cumbersome
optimization process per se presents a critical hurdle to efficiency. In this
paper, we introduce Hash3D, a universal acceleration for 3D generation without
model training. Central to Hash3D is the insight that feature-map redundancy is
prevalent in images rendered from camera positions and diffusion time-steps in
close proximity. By effectively hashing and reusing these feature maps across
neighboring timesteps and camera angles, Hash3D substantially prevents
redundant calculations, thus accelerating the diffusion model's inference in 3D
generation tasks. We achieve this through an adaptive grid-based hashing.
Surprisingly, this feature-sharing mechanism not only speed up the generation
but also enhances the smoothness and view consistency of the synthesized 3D
objects. Our experiments covering 5 text-to-3D and 3 image-to-3D models,
demonstrate Hash3D's versatility to speed up optimization, enhancing efficiency
by 1.3 to 4 times. Additionally, Hash3D's integration with 3D Gaussian
splatting largely speeds up 3D model creation, reducing text-to-3D processing
to about 10 minutes and image-to-3D conversion to roughly 30 seconds. The
project page is at https://adamdad.github.io/hash3D/.