DiffPortrait360: Síntesis de retratos consistentes con difusión para vistas de 360 grados
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
March 19, 2025
Autores: Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
cs.AI
Resumen
La generación de vistas en 360 grados de alta calidad de cabezas humanas a partir de imágenes de una sola vista es esencial para habilitar aplicaciones inmersivas de telepresencia accesibles y la creación escalable de contenido personalizado. Si bien los métodos más avanzados para la generación completa de cabezas se limitan a modelar cabezas humanas realistas, los últimos enfoques basados en difusión para la síntesis de cabezas omniscientes en estilo solo pueden producir vistas frontales y tienen dificultades con la consistencia de las vistas, lo que impide su conversión en verdaderos modelos 3D para su renderización desde ángulos arbitrarios. Introducimos un enfoque novedoso que genera vistas de cabezas en 360 grados completamente consistentes, adaptándose a formas humanas, estilizadas y antropomórficas, incluyendo accesorios como gafas y sombreros. Nuestro método se basa en el marco DiffPortrait3D, incorporando un ControlNet personalizado para la generación de detalles de la parte posterior de la cabeza y un módulo de apariencia dual para garantizar la consistencia global entre la parte frontal y posterior. Al entrenar en secuencias de vistas continuas e integrar una imagen de referencia posterior, nuestro enfoque logra una síntesis de vistas robusta y localmente continua. Nuestro modelo puede utilizarse para producir campos de radiancia neural (NeRFs) de alta calidad para la renderización en tiempo real desde cualquier punto de vista, superando a los métodos más avanzados en síntesis de objetos y generación de cabezas en 360 grados para retratos de entrada muy desafiantes.
English
Generating high-quality 360-degree views of human heads from single-view
images is essential for enabling accessible immersive telepresence applications
and scalable personalized content creation. While cutting-edge methods for full
head generation are limited to modeling realistic human heads, the latest
diffusion-based approaches for style-omniscient head synthesis can produce only
frontal views and struggle with view consistency, preventing their conversion
into true 3D models for rendering from arbitrary angles. We introduce a novel
approach that generates fully consistent 360-degree head views, accommodating
human, stylized, and anthropomorphic forms, including accessories like glasses
and hats. Our method builds on the DiffPortrait3D framework, incorporating a
custom ControlNet for back-of-head detail generation and a dual appearance
module to ensure global front-back consistency. By training on continuous view
sequences and integrating a back reference image, our approach achieves robust,
locally continuous view synthesis. Our model can be used to produce
high-quality neural radiance fields (NeRFs) for real-time, free-viewpoint
rendering, outperforming state-of-the-art methods in object synthesis and
360-degree head generation for very challenging input portraits.Summary
AI-Generated Summary