ChatPaper.aiChatPaper

Управление пространством и временем с помощью моделей диффузии

Controlling Space and Time with Diffusion Models

July 10, 2024
Авторы: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI

Аннотация

Мы представляем 4DiM, каскадную модель диффузии для синтеза нового вида в 4D (NVS), условную по одному или нескольким изображениям общей сцены, а также набору поз камеры и временным меткам. Для преодоления вызванных ограниченной доступностью 4D обучающих данных вызовов, мы предлагаем совместное обучение на 3D (с позой камеры), 4D (поза+время) и видеоданных (только время, без позы) и предлагаем новую архитектуру, позволяющую это реализовать. Мы также предлагаем калибровку данных SfM с позами с использованием монокулярных метрических оценщиков глубины для контроля метрического масштаба камеры. Для оценки модели мы вводим новые метрики для обогащения и преодоления недостатков текущих схем оценки, демонстрируя передовые результаты как в плане достоверности, так и управления позой по сравнению с существующими моделями диффузии для 3D NVS, при этом добавляя возможность обработки временной динамики. 4DiM также используется для улучшенного стежения панорам, перевода видео с условием позы на видео и ряда других задач. Для обзора посетите https://4d-diffusion.github.io
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), conditioned on one or more images of a general scene, and a set of camera poses and timestamps. To overcome challenges due to limited availability of 4D training data, we advocate joint training on 3D (with camera pose), 4D (pose+time) and video (time but no pose) data and propose a new architecture that enables the same. We further advocate the calibration of SfM posed data using monocular metric depth estimators for metric scale camera control. For model evaluation, we introduce new metrics to enrich and overcome shortcomings of current evaluation schemes, demonstrating state-of-the-art results in both fidelity and pose control compared to existing diffusion models for 3D NVS, while at the same time adding the ability to handle temporal dynamics. 4DiM is also used for improved panorama stitching, pose-conditioned video to video translation, and several other tasks. For an overview see https://4d-diffusion.github.io

Summary

AI-Generated Summary

PDF171November 28, 2024