FlexiDreamer: Generazione da Singola Immagine a 3D con FlexiCubes
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
April 1, 2024
Autori: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI
Abstract
La generazione di contenuti 3D a partire da prompt testuali o singole immagini ha compiuto progressi significativi in termini di qualità e velocità recentemente. Uno dei paradigmi dominanti prevede la generazione di immagini multi-vista coerenti, seguite da una ricostruzione a vista sparsa. Tuttavia, a causa della difficoltà di deformare direttamente la rappresentazione mesh per avvicinarsi alla topologia target, la maggior parte delle metodologie apprende una rappresentazione implicita (come NeRF) durante la ricostruzione a vista sparsa e acquisisce la mesh target attraverso un'estrazione post-elaborazione. Sebbene la rappresentazione implicita possa modellare efficacemente informazioni 3D ricche, il suo addestramento richiede tipicamente un lungo tempo di convergenza. Inoltre, l'operazione di estrazione post-elaborazione dal campo implicito porta anche a artefatti visivi indesiderati. In questo articolo, proponiamo FlexiDreamer, un nuovo framework di generazione 3D da singola immagine che ricostruisce la mesh target in modo end-to-end. Sfruttando un'estrazione basata su gradienti flessibile nota come FlexiCubes, il nostro metodo evita i difetti causati dalla post-elaborazione e facilita l'acquisizione diretta della mesh target. Inoltre, incorporiamo uno schema di codifica a griglia hash multi-risoluzione che attiva progressivamente i livelli di codifica nel campo implicito di FlexiCubes per aiutare a catturare dettagli geometrici per l'ottimizzazione passo-passo. È degno di nota che FlexiDreamer recupera una struttura 3D densa da un'immagine a singola vista in circa 1 minuto su una singola GPU NVIDIA A100, superando di gran lunga le metodologie precedenti.
English
3D content generation from text prompts or single images has made remarkable
progress in quality and speed recently. One of its dominant paradigms involves
generating consistent multi-view images followed by a sparse-view
reconstruction. However, due to the challenge of directly deforming the mesh
representation to approach the target topology, most methodologies learn an
implicit representation (such as NeRF) during the sparse-view reconstruction
and acquire the target mesh by a post-processing extraction. Although the
implicit representation can effectively model rich 3D information, its training
typically entails a long convergence time. In addition, the post-extraction
operation from the implicit field also leads to undesirable visual artifacts.
In this paper, we propose FlexiDreamer, a novel single image-to-3d generation
framework that reconstructs the target mesh in an end-to-end manner. By
leveraging a flexible gradient-based extraction known as FlexiCubes, our method
circumvents the defects brought by the post-processing and facilitates a direct
acquisition of the target mesh. Furthermore, we incorporate a multi-resolution
hash grid encoding scheme that progressively activates the encoding levels into
the implicit field in FlexiCubes to help capture geometric details for per-step
optimization. Notably, FlexiDreamer recovers a dense 3D structure from a
single-view image in approximately 1 minute on a single NVIDIA A100 GPU,
outperforming previous methodologies by a large margin.