DiffPortrait360 : Synthèse de portraits cohérents par diffusion pour la génération de vues à 360 degrés
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
March 19, 2025
Auteurs: Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
cs.AI
Résumé
La génération de vues 360 degrés de haute qualité de têtes humaines à partir d'images monoscopiques est essentielle pour permettre des applications de téléprésence immersive accessibles et une création de contenu personnalisé à grande échelle. Bien que les méthodes de pointe pour la génération complète de têtes se limitent à modéliser des têtes humaines réalistes, les approches récentes basées sur la diffusion pour la synthèse de têtes omniscientes en termes de style ne peuvent produire que des vues frontales et peinent à maintenir la cohérence des perspectives, ce qui empêche leur conversion en véritables modèles 3D pouvant être rendus sous des angles arbitraires. Nous proposons une nouvelle approche qui génère des vues 360 degrés entièrement cohérentes, adaptées aux formes humaines, stylisées et anthropomorphiques, y compris des accessoires tels que des lunettes et des chapeaux. Notre méthode s'appuie sur le framework DiffPortrait3D, en intégrant un ControlNet personnalisé pour la génération de détails de l'arrière de la tête et un module d'apparence dual pour assurer une cohérence globale entre l'avant et l'arrière. En s'entraînant sur des séquences de vues continues et en intégrant une image de référence arrière, notre approche permet une synthèse de vues robuste et localement continue. Notre modèle peut être utilisé pour produire des champs de rayonnement neural (NeRFs) de haute qualité pour un rendu en temps réel et en vue libre, surpassant les méthodes de pointe en synthèse d'objets et en génération de têtes 360 degrés pour des portraits d'entrée très complexes.
English
Generating high-quality 360-degree views of human heads from single-view
images is essential for enabling accessible immersive telepresence applications
and scalable personalized content creation. While cutting-edge methods for full
head generation are limited to modeling realistic human heads, the latest
diffusion-based approaches for style-omniscient head synthesis can produce only
frontal views and struggle with view consistency, preventing their conversion
into true 3D models for rendering from arbitrary angles. We introduce a novel
approach that generates fully consistent 360-degree head views, accommodating
human, stylized, and anthropomorphic forms, including accessories like glasses
and hats. Our method builds on the DiffPortrait3D framework, incorporating a
custom ControlNet for back-of-head detail generation and a dual appearance
module to ensure global front-back consistency. By training on continuous view
sequences and integrating a back reference image, our approach achieves robust,
locally continuous view synthesis. Our model can be used to produce
high-quality neural radiance fields (NeRFs) for real-time, free-viewpoint
rendering, outperforming state-of-the-art methods in object synthesis and
360-degree head generation for very challenging input portraits.Summary
AI-Generated Summary