Ouroboros3D: Генерация 3D изображений с использованием рекурсивной диффузии с учетом трехмерной информации.
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
June 5, 2024
Авторы: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI
Аннотация
Существующие методы создания трехмерных изображений из одного изображения обычно включают двухэтапный процесс, сначала генерируются многозрительные изображения, а затем используются эти изображения для трехмерной реконструкции. Однако обучение этих двух этапов отдельно приводит к значительному смещению данных на этапе вывода, что влияет на качество восстановленных результатов. Мы представляем объединенную 3D-структуру под названием Ouroboros3D, которая интегрирует диффузионную генерацию многозрительных изображений и трехмерную реконструкцию в рекурсивный процесс диффузии. В нашей структуре эти два модуля обучаются совместно через механизм самоусловия, позволяя им адаптироваться к особенностям друг друга для надежного вывода. Во время процесса шумоподавления многозрительных изображений модель диффузии многозрительных изображений использует карты, осведомленные о трехмерном пространстве, отрисованные модулем реконструкции на предыдущем временном шаге, в качестве дополнительных условий. Рекурсивная диффузионная структура с обратной связью, осведомленной о трехмерном пространстве, объединяет весь процесс и улучшает геометрическую согласованность. Эксперименты показывают, что наша структура превосходит разделение этих двух этапов и существующие методы, объединяющие их на этапе вывода. Страница проекта: https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage
process, first generating multi-view images, and then using these images for 3D
reconstruction. However, training these two stages separately leads to
significant data bias in the inference phase, thus affecting the quality of
reconstructed results. We introduce a unified 3D generation framework, named
Ouroboros3D, which integrates diffusion-based multi-view image generation and
3D reconstruction into a recursive diffusion process. In our framework, these
two modules are jointly trained through a self-conditioning mechanism, allowing
them to adapt to each other's characteristics for robust inference. During the
multi-view denoising process, the multi-view diffusion model uses the 3D-aware
maps rendered by the reconstruction module at the previous timestep as
additional conditions. The recursive diffusion framework with 3D-aware feedback
unites the entire process and improves geometric consistency.Experiments show
that our framework outperforms separation of these two stages and existing
methods that combine them at the inference phase. Project page:
https://costwen.github.io/Ouroboros3D/Summary
AI-Generated Summary