FlexiDreamer: Geração de Imagem Única para 3D com FlexiCubes
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
April 1, 2024
Autores: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI
Resumo
A geração de conteúdo 3D a partir de prompts de texto ou imagens únicas tem feito progressos notáveis em qualidade e velocidade recentemente. Um dos paradigmas dominantes envolve a geração de imagens multi-visão consistentes, seguidas por uma reconstrução de visão esparsa. No entanto, devido ao desafio de deformar diretamente a representação de malha para se aproximar da topologia alvo, a maioria das metodologias aprende uma representação implícita (como NeRF) durante a reconstrução de visão esparsa e adquire a malha alvo por meio de uma extração pós-processamento. Embora a representação implícita possa modelar efetivamente informações 3D ricas, seu treinamento normalmente envolve um longo tempo de convergência. Além disso, a operação de pós-extração do campo implícito também leva a artefatos visuais indesejáveis. Neste artigo, propomos o FlexiDreamer, uma nova estrutura de geração de imagem única para 3D que reconstrói a malha alvo de maneira end-to-end. Ao aproveitar uma extração flexível baseada em gradiente conhecida como FlexiCubes, nosso método contorna os defeitos trazidos pelo pós-processamento e facilita a aquisição direta da malha alvo. Além disso, incorporamos um esquema de codificação de grade de hash multi-resolução que ativa progressivamente os níveis de codificação no campo implícito do FlexiCubes para ajudar a capturar detalhes geométricos para otimização por etapa. Notavelmente, o FlexiDreamer recupera uma estrutura 3D densa a partir de uma imagem de visão única em aproximadamente 1 minuto em uma única GPU NVIDIA A100, superando as metodologias anteriores por uma grande margem.
English
3D content generation from text prompts or single images has made remarkable
progress in quality and speed recently. One of its dominant paradigms involves
generating consistent multi-view images followed by a sparse-view
reconstruction. However, due to the challenge of directly deforming the mesh
representation to approach the target topology, most methodologies learn an
implicit representation (such as NeRF) during the sparse-view reconstruction
and acquire the target mesh by a post-processing extraction. Although the
implicit representation can effectively model rich 3D information, its training
typically entails a long convergence time. In addition, the post-extraction
operation from the implicit field also leads to undesirable visual artifacts.
In this paper, we propose FlexiDreamer, a novel single image-to-3d generation
framework that reconstructs the target mesh in an end-to-end manner. By
leveraging a flexible gradient-based extraction known as FlexiCubes, our method
circumvents the defects brought by the post-processing and facilitates a direct
acquisition of the target mesh. Furthermore, we incorporate a multi-resolution
hash grid encoding scheme that progressively activates the encoding levels into
the implicit field in FlexiCubes to help capture geometric details for per-step
optimization. Notably, FlexiDreamer recovers a dense 3D structure from a
single-view image in approximately 1 minute on a single NVIDIA A100 GPU,
outperforming previous methodologies by a large margin.