MagicMan: Генеративный синтез новеллы об образах людей с осведомленностью о 3D-структурах, диффузией и итеративным усовершенствованием.
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
August 26, 2024
Авторы: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI
Аннотация
Существующие работы по реконструкции человека по одному изображению страдают от слабой обобщаемости из-за недостаточных данных для обучения или 3D-несоответствий из-за отсутствия всесторонних знаний о мультиплановости. В данной статье мы представляем MagicMan, модель диффузии мультиплановости, специфическую для человека, разработанную для генерации высококачественных изображений нового вида на основе одного эталонного изображения. В ее основе мы используем предварительно обученную 2D модель диффузии в качестве генеративного априорного знания для обобщаемости, с параметрической моделью SMPL-X в качестве 3D априорного знания о теле для повышения осведомленности о 3D. Для решения критической задачи поддержания согласованности при достижении плотной генерации мультиплановости для улучшенной 3D реконструкции человека мы вначале представляем гибридное мультиплановое внимание для облегчения как эффективного, так и тщательного обмена информацией между различными видами. Кроме того, мы представляем геометрически осведомленную двойную ветвь для одновременной генерации как в области RGB, так и в нормальных областях, дополнительно улучшая согласованность с помощью геометрических подсказок. Наконец, для решения проблем с недостаточной точностью оценки SMPL-X, противоречащей эталонному изображению, мы предлагаем новую стратегию итеративного уточнения, которая постепенно оптимизирует точность SMPL-X, улучшая качество и согласованность сгенерированных мультиплановых изображений. Обширные экспериментальные результаты демонстрируют, что наш метод значительно превосходит существующие подходы как в синтезе нового вида, так и в последующих задачах 3D реконструкции человека.
English
Existing works in single-image human reconstruction suffer from weak
generalizability due to insufficient training data or 3D inconsistencies for a
lack of comprehensive multi-view knowledge. In this paper, we introduce
MagicMan, a human-specific multi-view diffusion model designed to generate
high-quality novel view images from a single reference image. As its core, we
leverage a pre-trained 2D diffusion model as the generative prior for
generalizability, with the parametric SMPL-X model as the 3D body prior to
promote 3D awareness. To tackle the critical challenge of maintaining
consistency while achieving dense multi-view generation for improved 3D human
reconstruction, we first introduce hybrid multi-view attention to facilitate
both efficient and thorough information interchange across different views.
Additionally, we present a geometry-aware dual branch to perform concurrent
generation in both RGB and normal domains, further enhancing consistency via
geometry cues. Last but not least, to address ill-shaped issues arising from
inaccurate SMPL-X estimation that conflicts with the reference image, we
propose a novel iterative refinement strategy, which progressively optimizes
SMPL-X accuracy while enhancing the quality and consistency of the generated
multi-views. Extensive experimental results demonstrate that our method
significantly outperforms existing approaches in both novel view synthesis and
subsequent 3D human reconstruction tasks.Summary
AI-Generated Summary