ChatPaper.aiChatPaper

FlexiDreamer : Génération d'images uniques en 3D avec FlexiCubes

FlexiDreamer: Single Image-to-3D Generation with FlexiCubes

April 1, 2024
Auteurs: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI

Résumé

La génération de contenu 3D à partir de prompts textuels ou d'images uniques a récemment réalisé des progrès remarquables en termes de qualité et de rapidité. L'un de ses paradigmes dominants consiste à générer des images multi-vues cohérentes suivies d'une reconstruction à partir de vues éparses. Cependant, en raison de la difficulté à déformer directement la représentation maillée pour approcher la topologie cible, la plupart des méthodologies apprennent une représentation implicite (telle que NeRF) lors de la reconstruction à partir de vues éparses et acquièrent le maillage cible par une extraction post-traitement. Bien que la représentation implicite puisse modéliser efficacement des informations 3D riches, son entraînement nécessite généralement un temps de convergence long. De plus, l'opération d'extraction post-traitement à partir du champ implicite entraîne également des artefacts visuels indésirables. Dans cet article, nous proposons FlexiDreamer, un nouveau cadre de génération 3D à partir d'une seule image qui reconstruit le maillage cible de manière end-to-end. En exploitant une extraction flexible basée sur le gradient appelée FlexiCubes, notre méthode contourne les défauts apportés par le post-traitement et facilite l'acquisition directe du maillage cible. Par ailleurs, nous intégrons un schéma d'encodage par grille de hachage multi-résolution qui active progressivement les niveaux d'encodage dans le champ implicite de FlexiCubes pour aider à capturer les détails géométriques pour l'optimisation par étape. Notamment, FlexiDreamer récupère une structure 3D dense à partir d'une image mono-vue en environ 1 minute sur une seule GPU NVIDIA A100, surpassant largement les méthodologies précédentes.
English
3D content generation from text prompts or single images has made remarkable progress in quality and speed recently. One of its dominant paradigms involves generating consistent multi-view images followed by a sparse-view reconstruction. However, due to the challenge of directly deforming the mesh representation to approach the target topology, most methodologies learn an implicit representation (such as NeRF) during the sparse-view reconstruction and acquire the target mesh by a post-processing extraction. Although the implicit representation can effectively model rich 3D information, its training typically entails a long convergence time. In addition, the post-extraction operation from the implicit field also leads to undesirable visual artifacts. In this paper, we propose FlexiDreamer, a novel single image-to-3d generation framework that reconstructs the target mesh in an end-to-end manner. By leveraging a flexible gradient-based extraction known as FlexiCubes, our method circumvents the defects brought by the post-processing and facilitates a direct acquisition of the target mesh. Furthermore, we incorporate a multi-resolution hash grid encoding scheme that progressively activates the encoding levels into the implicit field in FlexiCubes to help capture geometric details for per-step optimization. Notably, FlexiDreamer recovers a dense 3D structure from a single-view image in approximately 1 minute on a single NVIDIA A100 GPU, outperforming previous methodologies by a large margin.

Summary

AI-Generated Summary

PDF242November 26, 2024