MagicMan: Generative Novelansichtssynthese von Menschen mit 3D-bewusster Diffusion und iterativer Verfeinerung
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
August 26, 2024
Autoren: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI
Zusammenfassung
Bestehende Arbeiten zur Einzelbild-Humanrekonstruktion leiden unter einer schwachen Generalisierbarkeit aufgrund unzureichender Trainingsdaten oder 3D-Inkonsistenzen aufgrund eines Mangels an umfassendem Multi-View-Wissen. In diesem Artikel stellen wir MagicMan vor, ein auf den Menschen spezifisches Multi-View-Diffusionsmodell, das darauf ausgelegt ist, hochwertige neuartige Ansichtsbilder aus einem einzigen Referenzbild zu generieren. Im Kern nutzen wir ein vortrainiertes 2D-Diffusionsmodell als generatives Prior für die Generalisierbarkeit, mit dem parametrischen SMPL-X-Modell als 3D-Körperprior, um das 3D-Bewusstsein zu fördern. Um die kritische Herausforderung der Konsistenzbewahrung bei der Erzielung dichter Multi-View-Generierung zur Verbesserung der 3D-Humanrekonstruktion anzugehen, führen wir zunächst eine hybride Multi-View-Aufmerksamkeit ein, um einen effizienten und gründlichen Informationsaustausch über verschiedene Ansichten hinweg zu erleichtern. Darüber hinaus präsentieren wir einen geometriebewussten Doppelzweig, um eine gleichzeitige Generierung in den RGB- und Normalbereichen durchzuführen und die Konsistenz durch geometrische Hinweise weiter zu verbessern. Zuletzt schlagen wir zur Bewältigung von fehlerhaften Problemen, die aus ungenauen SMPL-X-Schätzungen resultieren und im Widerspruch zum Referenzbild stehen, eine neuartige iterative Verfeinerungsstrategie vor, die die Genauigkeit von SMPL-X progressiv optimiert und gleichzeitig die Qualität und Konsistenz der generierten Multi-Views verbessert. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode sowohl bei der Synthese von neuartigen Ansichten als auch bei nachfolgenden 3D-Humanrekonstruktionsaufgaben signifikant besser abschneidet als bestehende Ansätze.
English
Existing works in single-image human reconstruction suffer from weak
generalizability due to insufficient training data or 3D inconsistencies for a
lack of comprehensive multi-view knowledge. In this paper, we introduce
MagicMan, a human-specific multi-view diffusion model designed to generate
high-quality novel view images from a single reference image. As its core, we
leverage a pre-trained 2D diffusion model as the generative prior for
generalizability, with the parametric SMPL-X model as the 3D body prior to
promote 3D awareness. To tackle the critical challenge of maintaining
consistency while achieving dense multi-view generation for improved 3D human
reconstruction, we first introduce hybrid multi-view attention to facilitate
both efficient and thorough information interchange across different views.
Additionally, we present a geometry-aware dual branch to perform concurrent
generation in both RGB and normal domains, further enhancing consistency via
geometry cues. Last but not least, to address ill-shaped issues arising from
inaccurate SMPL-X estimation that conflicts with the reference image, we
propose a novel iterative refinement strategy, which progressively optimizes
SMPL-X accuracy while enhancing the quality and consistency of the generated
multi-views. Extensive experimental results demonstrate that our method
significantly outperforms existing approaches in both novel view synthesis and
subsequent 3D human reconstruction tasks.Summary
AI-Generated Summary