FlexiDreamer: Преобразование изображения в 3D с помощью гибких кубов
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
April 1, 2024
Авторы: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI
Аннотация
Генерация трехмерного контента по текстовым подсказкам или одиночным изображениям недавно достигла значительного прогресса в качестве и скорости. Один из доминирующих парадигм включает в себя создание согласованных многозрительных изображений, за которым следует восстановление изображений с ограниченным обзором. Однако из-за сложности непосредственного деформирования сетчатого представления для приближения к целевой топологии большинство методологий изучают неявное представление (например, NeRF) во время восстановления изображений с ограниченным обзором и получают целевую сетку путем извлечения после обработки. Хотя неявное представление может эффективно моделировать богатую трехмерную информацию, его обучение обычно требует длительного времени сходимости. Кроме того, операция пост-извлечения из неявного поля также приводит к нежелательным визуальным артефактам. В данной статье мы предлагаем FlexiDreamer, новую рамочную систему генерации трехмерных изображений из одиночного изображения, которая восстанавливает целевую сетку в едином процессе. Используя гибкое градиентное извлечение, известное как FlexiCubes, наш метод обходит дефекты, вызванные пост-обработкой, и облегчает прямое приобретение целевой сетки. Кроме того, мы внедряем схему кодирования хэш-сетки с многоразрешением, которая постепенно активирует уровни кодирования в неявном поле в FlexiCubes для захвата геометрических деталей для оптимизации на каждом шаге. Следует отметить, что FlexiDreamer восстанавливает плотную трехмерную структуру из одного изображения с приблизительным временем в 1 минуту на одном графическом процессоре NVIDIA A100, превосходя предыдущие методологии значительно.
English
3D content generation from text prompts or single images has made remarkable
progress in quality and speed recently. One of its dominant paradigms involves
generating consistent multi-view images followed by a sparse-view
reconstruction. However, due to the challenge of directly deforming the mesh
representation to approach the target topology, most methodologies learn an
implicit representation (such as NeRF) during the sparse-view reconstruction
and acquire the target mesh by a post-processing extraction. Although the
implicit representation can effectively model rich 3D information, its training
typically entails a long convergence time. In addition, the post-extraction
operation from the implicit field also leads to undesirable visual artifacts.
In this paper, we propose FlexiDreamer, a novel single image-to-3d generation
framework that reconstructs the target mesh in an end-to-end manner. By
leveraging a flexible gradient-based extraction known as FlexiCubes, our method
circumvents the defects brought by the post-processing and facilitates a direct
acquisition of the target mesh. Furthermore, we incorporate a multi-resolution
hash grid encoding scheme that progressively activates the encoding levels into
the implicit field in FlexiCubes to help capture geometric details for per-step
optimization. Notably, FlexiDreamer recovers a dense 3D structure from a
single-view image in approximately 1 minute on a single NVIDIA A100 GPU,
outperforming previous methodologies by a large margin.Summary
AI-Generated Summary