ChatPaper.aiChatPaper

Controllare Spazio e Tempo con Modelli di Diffusione

Controlling Space and Time with Diffusion Models

July 10, 2024
Autori: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI

Abstract

Presentiamo 4DiM, un modello di diffusione a cascata per la sintesi di nuove viste 4D (NVS), condizionato su una o più immagini di una scena generica, insieme a un insieme di pose della telecamera e timestamp. Per superare le sfide legate alla limitata disponibilità di dati di addestramento 4D, proponiamo un addestramento congiunto su dati 3D (con pose della telecamera), 4D (pose+tempo) e video (tempo ma senza pose) e introduciamo una nuova architettura che lo rende possibile. Inoltre, sosteniamo la calibrazione dei dati con pose SfM utilizzando stimatori di profondità metrica monoculare per il controllo della scala metrica della telecamera. Per la valutazione del modello, introduciamo nuove metriche per arricchire e superare le carenze degli schemi di valutazione attuali, dimostrando risultati all'avanguardia sia in termini di fedeltà che di controllo delle pose rispetto ai modelli di diffusione esistenti per la NVS 3D, aggiungendo al contempo la capacità di gestire dinamiche temporali. 4DiM viene anche utilizzato per migliorare il stitching di panorami, la traduzione video a video condizionata alla pose e diverse altre attività. Per una panoramica, consultare https://4d-diffusion.github.io.
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), conditioned on one or more images of a general scene, and a set of camera poses and timestamps. To overcome challenges due to limited availability of 4D training data, we advocate joint training on 3D (with camera pose), 4D (pose+time) and video (time but no pose) data and propose a new architecture that enables the same. We further advocate the calibration of SfM posed data using monocular metric depth estimators for metric scale camera control. For model evaluation, we introduce new metrics to enrich and overcome shortcomings of current evaluation schemes, demonstrating state-of-the-art results in both fidelity and pose control compared to existing diffusion models for 3D NVS, while at the same time adding the ability to handle temporal dynamics. 4DiM is also used for improved panorama stitching, pose-conditioned video to video translation, and several other tasks. For an overview see https://4d-diffusion.github.io
PDF171November 28, 2024