ChatPaper.aiChatPaper

ViewFusion: Rumo à Consistência Multi-Vista via Desruído Interpolado

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

February 29, 2024
Autores: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI

Resumo

A síntese de novas perspectivas através de modelos de difusão tem demonstrado um potencial notável para gerar imagens diversas e de alta qualidade. No entanto, o processo independente de geração de imagens nesses métodos predominantes leva a desafios na manutenção da consistência entre múltiplas perspectivas. Para abordar isso, introduzimos o ViewFusion, um algoritmo novo e livre de treinamento que pode ser integrado de forma contínua em modelos de difusão pré-treinados existentes. Nossa abordagem adota um método auto-regressivo que implicitamente aproveita perspectivas previamente geradas como contexto para a geração da próxima perspectiva, garantindo uma consistência robusta de múltiplas perspectivas durante o processo de geração de novas visões. Por meio de um processo de difusão que funde informações de perspectivas conhecidas via desnaturação interpolada, nosso framework estende com sucesso modelos condicionados por uma única perspectiva para funcionar em configurações condicionadas por múltiplas perspectivas, sem qualquer ajuste fino adicional. Resultados experimentais extensivos demonstram a eficácia do ViewFusion na geração de novas perspectivas consistentes e detalhadas.
English
Novel-view synthesis through diffusion models has demonstrated remarkable potential for generating diverse and high-quality images. Yet, the independent process of image generation in these prevailing methods leads to challenges in maintaining multiple-view consistency. To address this, we introduce ViewFusion, a novel, training-free algorithm that can be seamlessly integrated into existing pre-trained diffusion models. Our approach adopts an auto-regressive method that implicitly leverages previously generated views as context for the next view generation, ensuring robust multi-view consistency during the novel-view generation process. Through a diffusion process that fuses known-view information via interpolated denoising, our framework successfully extends single-view conditioned models to work in multiple-view conditional settings without any additional fine-tuning. Extensive experimental results demonstrate the effectiveness of ViewFusion in generating consistent and detailed novel views.
PDF151February 8, 2026