Управление пространством и временем с помощью моделей диффузии
Controlling Space and Time with Diffusion Models
July 10, 2024
Авторы: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI
Аннотация
Мы представляем 4DiM, каскадную модель диффузии для синтеза нового вида в 4D (NVS), условную по одному или нескольким изображениям общей сцены, а также набору поз камеры и временным меткам. Для преодоления вызванных ограниченной доступностью 4D обучающих данных вызовов, мы предлагаем совместное обучение на 3D (с позой камеры), 4D (поза+время) и видеоданных (только время, без позы) и предлагаем новую архитектуру, позволяющую это реализовать. Мы также предлагаем калибровку данных SfM с позами с использованием монокулярных метрических оценщиков глубины для контроля метрического масштаба камеры. Для оценки модели мы вводим новые метрики для обогащения и преодоления недостатков текущих схем оценки, демонстрируя передовые результаты как в плане достоверности, так и управления позой по сравнению с существующими моделями диффузии для 3D NVS, при этом добавляя возможность обработки временной динамики. 4DiM также используется для улучшенного стежения панорам, перевода видео с условием позы на видео и ряда других задач. Для обзора посетите https://4d-diffusion.github.io
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis
(NVS), conditioned on one or more images of a general scene, and a set of
camera poses and timestamps. To overcome challenges due to limited availability
of 4D training data, we advocate joint training on 3D (with camera pose), 4D
(pose+time) and video (time but no pose) data and propose a new architecture
that enables the same. We further advocate the calibration of SfM posed data
using monocular metric depth estimators for metric scale camera control. For
model evaluation, we introduce new metrics to enrich and overcome shortcomings
of current evaluation schemes, demonstrating state-of-the-art results in both
fidelity and pose control compared to existing diffusion models for 3D NVS,
while at the same time adding the ability to handle temporal dynamics. 4DiM is
also used for improved panorama stitching, pose-conditioned video to video
translation, and several other tasks. For an overview see
https://4d-diffusion.github.ioSummary
AI-Generated Summary