FlexiDreamer: Enkele Afbeelding-naar-3D Generatie met FlexiCubes
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
April 1, 2024
Auteurs: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI
Samenvatting
3D-contentgeneratie op basis van tekstprompts of enkele afbeeldingen heeft recentelijk opmerkelijke vooruitgang geboekt in kwaliteit en snelheid. Een van de dominante paradigma's omvat het genereren van consistente multi-view afbeeldingen, gevolgd door een sparse-view reconstructie. Vanwege de uitdaging om de mesh-representatie direct te vervormen om de doel-topologie te benaderen, leren de meeste methodologieën een impliciete representatie (zoals NeRF) tijdens de sparse-view reconstructie en verkrijgen ze de doel-mesh via een post-processing extractie. Hoewel de impliciete representatie effectief rijke 3D-informatie kan modelleren, vereist de training ervan doorgaans een lange convergentietijd. Bovendien leidt de post-extractie operatie vanuit het impliciete veld ook tot ongewenste visuele artefacten. In dit artikel stellen we FlexiDreamer voor, een nieuw single image-to-3d generatie framework dat de doel-mesh op een end-to-end manier reconstrueert. Door gebruik te maken van een flexibele gradient-gebaseerde extractie, bekend als FlexiCubes, omzeilt onze methode de tekortkomingen die door de post-processing worden veroorzaakt en vergemakkelijkt het een directe verkrijging van de doel-mesh. Verder integreren we een multi-resolutie hash grid encoderingsschema dat de encoderingsniveaus progressief activeert in het impliciete veld van FlexiCubes om geometrische details vast te leggen voor per-stap optimalisatie. Opmerkelijk is dat FlexiDreamer een dichte 3D-structuur herstelt vanuit een single-view afbeelding in ongeveer 1 minuut op een enkele NVIDIA A100 GPU, wat een aanzienlijke verbetering is ten opzichte van eerdere methodologieën.
English
3D content generation from text prompts or single images has made remarkable
progress in quality and speed recently. One of its dominant paradigms involves
generating consistent multi-view images followed by a sparse-view
reconstruction. However, due to the challenge of directly deforming the mesh
representation to approach the target topology, most methodologies learn an
implicit representation (such as NeRF) during the sparse-view reconstruction
and acquire the target mesh by a post-processing extraction. Although the
implicit representation can effectively model rich 3D information, its training
typically entails a long convergence time. In addition, the post-extraction
operation from the implicit field also leads to undesirable visual artifacts.
In this paper, we propose FlexiDreamer, a novel single image-to-3d generation
framework that reconstructs the target mesh in an end-to-end manner. By
leveraging a flexible gradient-based extraction known as FlexiCubes, our method
circumvents the defects brought by the post-processing and facilitates a direct
acquisition of the target mesh. Furthermore, we incorporate a multi-resolution
hash grid encoding scheme that progressively activates the encoding levels into
the implicit field in FlexiCubes to help capture geometric details for per-step
optimization. Notably, FlexiDreamer recovers a dense 3D structure from a
single-view image in approximately 1 minute on a single NVIDIA A100 GPU,
outperforming previous methodologies by a large margin.