Управление пространством и временем с помощью моделей диффузии

Аннотация

Мы представляем 4DiM, каскадную модель диффузии для синтеза нового вида в 4D (NVS), условную по одному или нескольким изображениям общей сцены, а также набору поз камеры и временным меткам. Для преодоления вызванных ограниченной доступностью 4D обучающих данных вызовов, мы предлагаем совместное обучение на 3D (с позой камеры), 4D (поза+время) и видеоданных (только время, без позы) и предлагаем новую архитектуру, позволяющую это реализовать. Мы также предлагаем калибровку данных SfM с позами с использованием монокулярных метрических оценщиков глубины для контроля метрического масштаба камеры. Для оценки модели мы вводим новые метрики для обогащения и преодоления недостатков текущих схем оценки, демонстрируя передовые результаты как в плане достоверности, так и управления позой по сравнению с существующими моделями диффузии для 3D NVS, при этом добавляя возможность обработки временной динамики. 4DiM также используется для улучшенного стежения панорам, перевода видео с условием позы на видео и ряда других задач. Для обзора посетите https://4d-diffusion.github.io

English

We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), conditioned on one or more images of a general scene, and a set of camera poses and timestamps. To overcome challenges due to limited availability of 4D training data, we advocate joint training on 3D (with camera pose), 4D (pose+time) and video (time but no pose) data and propose a new architecture that enables the same. We further advocate the calibration of SfM posed data using monocular metric depth estimators for metric scale camera control. For model evaluation, we introduce new metrics to enrich and overcome shortcomings of current evaluation schemes, demonstrating state-of-the-art results in both fidelity and pose control compared to existing diffusion models for 3D NVS, while at the same time adding the ability to handle temporal dynamics. 4DiM is also used for improved panorama stitching, pose-conditioned video to video translation, and several other tasks. For an overview see https://4d-diffusion.github.io

Управление пространством и временем с помощью моделей диффузии

Controlling Space and Time with Diffusion Models

Аннотация

Support