DiffPortrait360: Síntese de Retratos Consistentes com Difusão para Visão de 360 Graus
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
March 19, 2025
Autores: Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
cs.AI
Resumo
A geração de vistas em 360 graus de alta qualidade de cabeças humanas a partir de imagens de visão única é essencial para viabilizar aplicações acessíveis de telepresença imersiva e a criação escalável de conteúdo personalizado. Embora os métodos mais avançados para a geração completa de cabeças estejam limitados à modelagem de cabeças humanas realistas, as abordagens mais recentes baseadas em difusão para síntese de cabeças omniscientes em estilo só conseguem produzir vistas frontais e lutam com a consistência de visão, impedindo sua conversão em modelos 3D verdadeiros para renderização a partir de ângulos arbitrários. Apresentamos uma nova abordagem que gera vistas de 360 graus totalmente consistentes, acomodando formas humanas, estilizadas e antropomórficas, incluindo acessórios como óculos e chapéus. Nosso método se baseia na estrutura DiffPortrait3D, incorporando um ControlNet personalizado para a geração de detalhes da parte posterior da cabeça e um módulo de aparência dupla para garantir consistência global entre frente e verso. Ao treinar em sequências contínuas de vistas e integrar uma imagem de referência traseira, nossa abordagem alcança uma síntese de vista robusta e localmente contínua. Nosso modelo pode ser usado para produzir campos de radiação neural (NeRFs) de alta qualidade para renderização em tempo real e de ponto de vista livre, superando métodos state-of-the-art em síntese de objetos e geração de cabeças em 360 graus para retratos de entrada muito desafiadores.
English
Generating high-quality 360-degree views of human heads from single-view
images is essential for enabling accessible immersive telepresence applications
and scalable personalized content creation. While cutting-edge methods for full
head generation are limited to modeling realistic human heads, the latest
diffusion-based approaches for style-omniscient head synthesis can produce only
frontal views and struggle with view consistency, preventing their conversion
into true 3D models for rendering from arbitrary angles. We introduce a novel
approach that generates fully consistent 360-degree head views, accommodating
human, stylized, and anthropomorphic forms, including accessories like glasses
and hats. Our method builds on the DiffPortrait3D framework, incorporating a
custom ControlNet for back-of-head detail generation and a dual appearance
module to ensure global front-back consistency. By training on continuous view
sequences and integrating a back reference image, our approach achieves robust,
locally continuous view synthesis. Our model can be used to produce
high-quality neural radiance fields (NeRFs) for real-time, free-viewpoint
rendering, outperforming state-of-the-art methods in object synthesis and
360-degree head generation for very challenging input portraits.Summary
AI-Generated Summary