Ruimte en Tijd Beheersen met Diffusiemodellen
Controlling Space and Time with Diffusion Models
July 10, 2024
Auteurs: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI
Samenvatting
We presenteren 4DiM, een gecascadeerd diffusiemodel voor 4D novel view synthesis (NVS), gebaseerd op één of meer afbeeldingen van een algemene scène, en een set cameraposities en tijdstempels. Om de uitdagingen door de beperkte beschikbaarheid van 4D-trainingsdata te overwinnen, pleiten we voor gezamenlijke training op 3D (met camerapositie), 4D (positie+tijd) en videodata (tijd maar geen positie) en introduceren we een nieuwe architectuur die dit mogelijk maakt. We bepleiten verder de kalibratie van SfM-geposeerde data met behulp van monokulaire metrische diepteschatters voor metrische schaal camerabesturing. Voor model evaluatie introduceren we nieuwe metrieken om de huidige evaluatieschema's te verrijken en tekortkomingen te overwinnen, waarbij we state-of-the-art resultaten demonstreren in zowel kwaliteit als positiebesturing in vergelijking met bestaande diffusiemodellen voor 3D NVS, terwijl we tegelijkertijd de mogelijkheid toevoegen om temporele dynamiek te hanteren. 4DiM wordt ook gebruikt voor verbeterde panoramastitching, positie-geconditioneerde video-naar-video vertaling, en verschillende andere taken. Voor een overzicht zie https://4d-diffusion.github.io.
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis
(NVS), conditioned on one or more images of a general scene, and a set of
camera poses and timestamps. To overcome challenges due to limited availability
of 4D training data, we advocate joint training on 3D (with camera pose), 4D
(pose+time) and video (time but no pose) data and propose a new architecture
that enables the same. We further advocate the calibration of SfM posed data
using monocular metric depth estimators for metric scale camera control. For
model evaluation, we introduce new metrics to enrich and overcome shortcomings
of current evaluation schemes, demonstrating state-of-the-art results in both
fidelity and pose control compared to existing diffusion models for 3D NVS,
while at the same time adding the ability to handle temporal dynamics. 4DiM is
also used for improved panorama stitching, pose-conditioned video to video
translation, and several other tasks. For an overview see
https://4d-diffusion.github.io