ViewFusion: Достижение согласованности между несколькими видами через интерполированное подавление шума
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
February 29, 2024
Авторы: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI
Аннотация
Синтез изображений с нового ракурса с использованием моделей диффузии продемонстрировал замечательный потенциал для создания разнообразных и высококачественных изображений. Однако независимый процесс генерации изображений в этих преобладающих методах приводит к трудностям в поддержании согласованности между несколькими ракурсами. Для решения этой проблемы мы представляем ViewFusion, новый алгоритм, не требующий обучения, который может быть легко интегрирован в существующие предварительно обученные модели диффузии. Наш подход использует авторегрессионный метод, который неявно использует ранее сгенерированные ракурсы в качестве контекста для генерации следующего ракурса, обеспечивая надежную согласованность между несколькими ракурсами в процессе генерации нового ракурса. Через процесс диффузии, который объединяет информацию о известных ракурсах с помощью интерполированного шумоподавления, наша структура успешно расширяет модели, обученные на одном ракурсе, для работы в условиях многоракурсной установки без дополнительной донастройки. Обширные экспериментальные результаты демонстрируют эффективность ViewFusion в создании согласованных и детальных новых ракурсов.
English
Novel-view synthesis through diffusion models has demonstrated remarkable
potential for generating diverse and high-quality images. Yet, the independent
process of image generation in these prevailing methods leads to challenges in
maintaining multiple-view consistency. To address this, we introduce
ViewFusion, a novel, training-free algorithm that can be seamlessly integrated
into existing pre-trained diffusion models. Our approach adopts an
auto-regressive method that implicitly leverages previously generated views as
context for the next view generation, ensuring robust multi-view consistency
during the novel-view generation process. Through a diffusion process that
fuses known-view information via interpolated denoising, our framework
successfully extends single-view conditioned models to work in multiple-view
conditional settings without any additional fine-tuning. Extensive experimental
results demonstrate the effectiveness of ViewFusion in generating consistent
and detailed novel views.