ZeroNVS: Синтез 360-градусного обзора с нулевым обучением на основе одного реального изображения
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
October 27, 2023
Авторы: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI
Аннотация
Мы представляем 3D-осознанную диффузионную модель ZeroNVS для синтеза новых видов из одного изображения в условиях реальных сцен. В то время как существующие методы разработаны для отдельных объектов с маскированным фоном, мы предлагаем новые подходы для решения задач, возникающих в сложных сценах с множеством объектов и разнообразным фоном. В частности, мы обучаем генеративный априор на смеси данных, охватывающих объектно-ориентированные, интерьерные и экстерьерные сцены. Для устранения проблем, связанных с смешением данных, таких как неоднозначность масштаба глубины, мы предлагаем новую параметризацию и схему нормализации условий камеры. Кроме того, мы отмечаем, что метод Score Distillation Sampling (SDS) склонен усекать распределение сложного фона в процессе дистилляции 360-градусных сцен, и предлагаем метод "SDS anchoring" для повышения разнообразия синтезированных новых видов. Наша модель устанавливает новый рекорд по метрике LPIPS на наборе данных DTU в условиях zero-shot, превосходя даже методы, специально обученные на DTU. Мы также адаптируем сложный набор данных Mip-NeRF 360 в качестве нового эталона для синтеза новых видов из одного изображения и демонстрируем высокую производительность в этой задаче. Наш код и данные доступны по адресу http://kylesargent.github.io/zeronvs/.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view
synthesis for in-the-wild scenes. While existing methods are designed for
single objects with masked backgrounds, we propose new techniques to address
challenges introduced by in-the-wild multi-object scenes with complex
backgrounds. Specifically, we train a generative prior on a mixture of data
sources that capture object-centric, indoor, and outdoor scenes. To address
issues from data mixture such as depth-scale ambiguity, we propose a novel
camera conditioning parameterization and normalization scheme. Further, we
observe that Score Distillation Sampling (SDS) tends to truncate the
distribution of complex backgrounds during distillation of 360-degree scenes,
and propose "SDS anchoring" to improve the diversity of synthesized novel
views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset
in the zero-shot setting, even outperforming methods specifically trained on
DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark
for single-image novel view synthesis, and demonstrate strong performance in
this setting. Our code and data are at http://kylesargent.github.io/zeronvs/