Синтез новых видов с высокой точностью с использованием диффузии, управляемой сплаттингом
High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion
February 18, 2025
Авторы: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI
Аннотация
Несмотря на недавние достижения в области синтеза новых ракурсов (Novel View Synthesis, NVS), генерация высококачественных изображений на основе одного или нескольких наблюдений остается сложной задачей. Существующие подходы, основанные на сплаттинге, часто приводят к искажениям геометрии из-за ошибок сплаттинга. В то время как методы, основанные на диффузии, используют богатые 3D-приоры для улучшения геометрии, они часто страдают от галлюцинаций текстур. В данной статье мы представляем SplatDiff — модель видеодиффузии, управляемую пиксельным сплаттингом, предназначенную для синтеза высококачественных новых ракурсов на основе одного изображения. В частности, мы предлагаем стратегию согласованного синтеза для точного управления целевыми ракурсами и синтеза геометрически согласованных видов. Для минимизации галлюцинаций текстур мы разработали модуль текстурирования, который обеспечивает генерацию высококачественных текстур за счет адаптивного слияния признаков. Таким образом, SplatDiff объединяет преимущества сплаттинга и диффузии для генерации новых ракурсов с согласованной геометрией и высококачественными деталями. Многочисленные эксперименты подтверждают передовые характеристики SplatDiff в задаче синтеза новых ракурсов на основе одного изображения. Кроме того, без дополнительного обучения SplatDiff демонстрирует впечатляющую производительность в задачах нулевого сэмплинга, включая синтез новых ракурсов на основе нескольких изображений и преобразование стереовидео.
English
Despite recent advances in Novel View Synthesis (NVS), generating
high-fidelity views from single or sparse observations remains a significant
challenge. Existing splatting-based approaches often produce distorted geometry
due to splatting errors. While diffusion-based methods leverage rich 3D priors
to achieve improved geometry, they often suffer from texture hallucination. In
this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion
model designed to synthesize high-fidelity novel views from a single image.
Specifically, we propose an aligned synthesis strategy for precise control of
target viewpoints and geometry-consistent view synthesis. To mitigate texture
hallucination, we design a texture bridge module that enables high-fidelity
texture generation through adaptive feature fusion. In this manner, SplatDiff
leverages the strengths of splatting and diffusion to generate novel views with
consistent geometry and high-fidelity details. Extensive experiments verify the
state-of-the-art performance of SplatDiff in single-view NVS. Additionally,
without extra training, SplatDiff shows remarkable zero-shot performance across
diverse tasks, including sparse-view NVS and stereo video conversion.Summary
AI-Generated Summary