ChatPaper.aiChatPaper

Синтез новых видов с высокой точностью с использованием диффузии, управляемой сплаттингом

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

February 18, 2025
Авторы: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI

Аннотация

Несмотря на недавние достижения в области синтеза новых ракурсов (Novel View Synthesis, NVS), генерация высококачественных изображений на основе одного или нескольких наблюдений остается сложной задачей. Существующие подходы, основанные на сплаттинге, часто приводят к искажениям геометрии из-за ошибок сплаттинга. В то время как методы, основанные на диффузии, используют богатые 3D-приоры для улучшения геометрии, они часто страдают от галлюцинаций текстур. В данной статье мы представляем SplatDiff — модель видеодиффузии, управляемую пиксельным сплаттингом, предназначенную для синтеза высококачественных новых ракурсов на основе одного изображения. В частности, мы предлагаем стратегию согласованного синтеза для точного управления целевыми ракурсами и синтеза геометрически согласованных видов. Для минимизации галлюцинаций текстур мы разработали модуль текстурирования, который обеспечивает генерацию высококачественных текстур за счет адаптивного слияния признаков. Таким образом, SplatDiff объединяет преимущества сплаттинга и диффузии для генерации новых ракурсов с согласованной геометрией и высококачественными деталями. Многочисленные эксперименты подтверждают передовые характеристики SplatDiff в задаче синтеза новых ракурсов на основе одного изображения. Кроме того, без дополнительного обучения SplatDiff демонстрирует впечатляющую производительность в задачах нулевого сэмплинга, включая синтез новых ракурсов на основе нескольких изображений и преобразование стереовидео.
English
Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

Summary

AI-Generated Summary

PDF32February 20, 2025