ChatPaper.aiChatPaper

ViewFusion: Hacia la Consistencia Multi-Vista mediante Desruido Interpolado

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

February 29, 2024
Autores: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI

Resumen

La síntesis de nuevas vistas a través de modelos de difusión ha demostrado un potencial notable para generar imágenes diversas y de alta calidad. Sin embargo, el proceso independiente de generación de imágenes en estos métodos predominantes presenta desafíos para mantener la consistencia entre múltiples vistas. Para abordar esto, presentamos ViewFusion, un algoritmo novedoso y libre de entrenamiento que puede integrarse sin problemas en modelos de difusión preentrenados existentes. Nuestro enfoque adopta un método autorregresivo que aprovecha implícitamente las vistas previamente generadas como contexto para la generación de la siguiente vista, asegurando una consistencia robusta de múltiples vistas durante el proceso de generación de nuevas vistas. A través de un proceso de difusión que fusiona la información de vistas conocidas mediante desruido interpolado, nuestro marco logra extender modelos condicionados por una sola vista para funcionar en entornos condicionados por múltiples vistas sin necesidad de ajustes adicionales. Los resultados experimentales exhaustivos demuestran la efectividad de ViewFusion en la generación de vistas nuevas consistentes y detalladas.
English
Novel-view synthesis through diffusion models has demonstrated remarkable potential for generating diverse and high-quality images. Yet, the independent process of image generation in these prevailing methods leads to challenges in maintaining multiple-view consistency. To address this, we introduce ViewFusion, a novel, training-free algorithm that can be seamlessly integrated into existing pre-trained diffusion models. Our approach adopts an auto-regressive method that implicitly leverages previously generated views as context for the next view generation, ensuring robust multi-view consistency during the novel-view generation process. Through a diffusion process that fuses known-view information via interpolated denoising, our framework successfully extends single-view conditioned models to work in multiple-view conditional settings without any additional fine-tuning. Extensive experimental results demonstrate the effectiveness of ViewFusion in generating consistent and detailed novel views.
PDF151December 15, 2024