Controlando Espaço e Tempo com Modelos de Difusão
Controlling Space and Time with Diffusion Models
July 10, 2024
Autores: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI
Resumo
Apresentamos o 4DiM, um modelo de difusão em cascata para síntese de novos pontos de vista 4D (NVS), condicionado a uma ou mais imagens de uma cena geral, e um conjunto de poses de câmera e timestamps. Para superar desafios devido à disponibilidade limitada de dados de treinamento 4D, defendemos o treinamento conjunto em dados 3D (com pose de câmera), 4D (pose+tempo) e vídeo (tempo, mas sem pose) e propomos uma nova arquitetura que possibilita o mesmo. Além disso, defendemos a calibração de dados de pose de SfM usando estimadores de profundidade métrica monocular para controle de escala métrica da câmera. Para avaliação do modelo, introduzimos novas métricas para enriquecer e superar deficiências dos esquemas de avaliação atuais, demonstrando resultados de ponta tanto em fidelidade quanto em controle de pose em comparação com modelos de difusão existentes para NVS 3D, ao mesmo tempo que adicionamos a capacidade de lidar com dinâmicas temporais. O 4DiM também é utilizado para aprimorar a costura de panoramas, tradução de vídeo condicionada por pose para vídeo e várias outras tarefas. Para uma visão geral, consulte https://4d-diffusion.github.io
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis
(NVS), conditioned on one or more images of a general scene, and a set of
camera poses and timestamps. To overcome challenges due to limited availability
of 4D training data, we advocate joint training on 3D (with camera pose), 4D
(pose+time) and video (time but no pose) data and propose a new architecture
that enables the same. We further advocate the calibration of SfM posed data
using monocular metric depth estimators for metric scale camera control. For
model evaluation, we introduce new metrics to enrich and overcome shortcomings
of current evaluation schemes, demonstrating state-of-the-art results in both
fidelity and pose control compared to existing diffusion models for 3D NVS,
while at the same time adding the ability to handle temporal dynamics. 4DiM is
also used for improved panorama stitching, pose-conditioned video to video
translation, and several other tasks. For an overview see
https://4d-diffusion.github.io