ChatPaper.aiChatPaper

DiffPortrait360 : Synthèse de portraits cohérents par diffusion pour la génération de vues à 360 degrés

DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis

March 19, 2025
Auteurs: Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
cs.AI

Résumé

La génération de vues 360 degrés de haute qualité de têtes humaines à partir d'images monoscopiques est essentielle pour permettre des applications de téléprésence immersive accessibles et une création de contenu personnalisé à grande échelle. Bien que les méthodes de pointe pour la génération complète de têtes se limitent à modéliser des têtes humaines réalistes, les approches récentes basées sur la diffusion pour la synthèse de têtes omniscientes en termes de style ne peuvent produire que des vues frontales et peinent à maintenir la cohérence des perspectives, ce qui empêche leur conversion en véritables modèles 3D pouvant être rendus sous des angles arbitraires. Nous proposons une nouvelle approche qui génère des vues 360 degrés entièrement cohérentes, adaptées aux formes humaines, stylisées et anthropomorphiques, y compris des accessoires tels que des lunettes et des chapeaux. Notre méthode s'appuie sur le framework DiffPortrait3D, en intégrant un ControlNet personnalisé pour la génération de détails de l'arrière de la tête et un module d'apparence dual pour assurer une cohérence globale entre l'avant et l'arrière. En s'entraînant sur des séquences de vues continues et en intégrant une image de référence arrière, notre approche permet une synthèse de vues robuste et localement continue. Notre modèle peut être utilisé pour produire des champs de rayonnement neural (NeRFs) de haute qualité pour un rendu en temps réel et en vue libre, surpassant les méthodes de pointe en synthèse d'objets et en génération de têtes 360 degrés pour des portraits d'entrée très complexes.
English
Generating high-quality 360-degree views of human heads from single-view images is essential for enabling accessible immersive telepresence applications and scalable personalized content creation. While cutting-edge methods for full head generation are limited to modeling realistic human heads, the latest diffusion-based approaches for style-omniscient head synthesis can produce only frontal views and struggle with view consistency, preventing their conversion into true 3D models for rendering from arbitrary angles. We introduce a novel approach that generates fully consistent 360-degree head views, accommodating human, stylized, and anthropomorphic forms, including accessories like glasses and hats. Our method builds on the DiffPortrait3D framework, incorporating a custom ControlNet for back-of-head detail generation and a dual appearance module to ensure global front-back consistency. By training on continuous view sequences and integrating a back reference image, our approach achieves robust, locally continuous view synthesis. Our model can be used to produce high-quality neural radiance fields (NeRFs) for real-time, free-viewpoint rendering, outperforming state-of-the-art methods in object synthesis and 360-degree head generation for very challenging input portraits.

Summary

AI-Generated Summary

PDF82March 26, 2025