FlexiDreamer: Generierung von 3D-Modellen aus Einzelbildern mit FlexiCubes
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
April 1, 2024
Autoren: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI
Zusammenfassung
Die Generierung von 3D-Inhalten aus Textvorgaben oder einzelnen Bildern hat in jüngster Zeit bemerkenswerte Fortschritte in Bezug auf Qualität und Geschwindigkeit gemacht. Eines der dominierenden Paradigmen beinhaltet die Erzeugung konsistenter Multi-View-Bilder, gefolgt von einer Sparse-View-Rekonstruktion. Aufgrund der Herausforderung, die Gitterrepräsentation direkt zu verformen, um sich der Zieltopologie anzunähern, lernen die meisten Methoden eine implizite Repräsentation (wie NeRF) während der Sparse-View-Rekonstruktion und erhalten das Zielgitter durch eine nachgelagerte Extraktion. Obwohl die implizite Repräsentation 3D-Informationen effektiv modellieren kann, erfordert ihr Training in der Regel eine lange Konvergenzzeit. Darüber hinaus führt die nachträgliche Extraktion aus dem impliziten Feld auch zu unerwünschten visuellen Artefakten. In diesem Artikel schlagen wir FlexiDreamer vor, ein neuartiges Framework zur Generierung von 3D-Strukturen aus Einzelbildern, das das Zielgitter auf direktem Wege rekonstruiert. Durch die Nutzung einer flexiblen, gradientenbasierten Extraktion namens FlexiCubes umgeht unsere Methode die Mängel, die durch die Nachbearbeitung entstehen, und erleichtert eine direkte Erfassung des Zielgitters. Darüber hinaus integrieren wir ein Multi-Resolution-Hash-Gittercodierungsschema, das schrittweise die Codierungsebenen im impliziten Feld in FlexiCubes aktiviert, um geometrische Details für die schrittweise Optimierung zu erfassen. Bemerkenswert ist, dass FlexiDreamer eine dichte 3D-Struktur aus einem Einzelbild in etwa 1 Minute auf einer einzelnen NVIDIA A100 GPU wiederherstellt und dabei die bisherigen Methoden bei weitem übertrifft.
English
3D content generation from text prompts or single images has made remarkable
progress in quality and speed recently. One of its dominant paradigms involves
generating consistent multi-view images followed by a sparse-view
reconstruction. However, due to the challenge of directly deforming the mesh
representation to approach the target topology, most methodologies learn an
implicit representation (such as NeRF) during the sparse-view reconstruction
and acquire the target mesh by a post-processing extraction. Although the
implicit representation can effectively model rich 3D information, its training
typically entails a long convergence time. In addition, the post-extraction
operation from the implicit field also leads to undesirable visual artifacts.
In this paper, we propose FlexiDreamer, a novel single image-to-3d generation
framework that reconstructs the target mesh in an end-to-end manner. By
leveraging a flexible gradient-based extraction known as FlexiCubes, our method
circumvents the defects brought by the post-processing and facilitates a direct
acquisition of the target mesh. Furthermore, we incorporate a multi-resolution
hash grid encoding scheme that progressively activates the encoding levels into
the implicit field in FlexiCubes to help capture geometric details for per-step
optimization. Notably, FlexiDreamer recovers a dense 3D structure from a
single-view image in approximately 1 minute on a single NVIDIA A100 GPU,
outperforming previous methodologies by a large margin.Summary
AI-Generated Summary