ChatPaper.aiChatPaper

MagicMan: Síntesis de Vista Novel Generativa de Humanos con Difusión Consciente en 3D y Refinamiento Iterativo

MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

August 26, 2024
Autores: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI

Resumen

Los trabajos existentes en la reconstrucción humana a partir de una sola imagen sufren de una débil generalización debido a la falta de datos de entrenamiento suficientes o inconsistencias tridimensionales por la falta de un conocimiento multi-vista integral. En este documento, presentamos MagicMan, un modelo de difusión multi-vista específico para humanos diseñado para generar imágenes de nuevas vistas de alta calidad a partir de una sola imagen de referencia. En su núcleo, aprovechamos un modelo de difusión 2D pre-entrenado como prior generativo para la generalización, con el modelo paramétrico SMPL-X como prior del cuerpo 3D para promover la conciencia 3D. Para abordar el desafío crítico de mantener la consistencia al lograr una generación densa multi-vista para una mejor reconstrucción humana 3D, primero introducimos una atención híbrida multi-vista para facilitar tanto un intercambio eficiente como exhaustivo de información entre diferentes vistas. Además, presentamos una rama dual consciente de la geometría para realizar una generación simultánea en los dominios RGB y normales, mejorando aún más la consistencia a través de pistas de geometría. Por último, para abordar problemas de forma incorrecta que surgen de una estimación inexacta de SMPL-X que entra en conflicto con la imagen de referencia, proponemos una novedosa estrategia de refinamiento iterativo, que optimiza progresivamente la precisión de SMPL-X mientras mejora la calidad y consistencia de las vistas múltiples generadas. Los extensos resultados experimentales demuestran que nuestro método supera significativamente a los enfoques existentes tanto en la síntesis de nuevas vistas como en las tareas subsiguientes de reconstrucción humana 3D.
English
Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks.

Summary

AI-Generated Summary

PDF112November 16, 2024