Controlando el Espacio y el Tiempo con Modelos de Difusión
Controlling Space and Time with Diffusion Models
July 10, 2024
Autores: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI
Resumen
Presentamos 4DiM, un modelo de difusión en cascada para la síntesis de vistas novedosas en 4D (NVS), condicionado a una o más imágenes de una escena general, y un conjunto de poses de cámara y marcas de tiempo. Para superar los desafíos debido a la disponibilidad limitada de datos de entrenamiento en 4D, abogamos por el entrenamiento conjunto en datos 3D (con pose de cámara), 4D (pose+tiempo) y video (tiempo pero sin pose) y proponemos una nueva arquitectura que lo permite. Además, abogamos por la calibración de datos de SfM con poses utilizando estimadores métricos de profundidad monoculares para el control de la escala métrica de la cámara. Para la evaluación del modelo, introducimos nuevas métricas para enriquecer y superar las deficiencias de los esquemas de evaluación actuales, demostrando resultados de vanguardia tanto en fidelidad como en control de pose en comparación con los modelos de difusión existentes para NVS en 3D, al mismo tiempo que añadimos la capacidad de manejar dinámicas temporales. 4DiM también se utiliza para una mejor unión de panoramas, traducción de video a video condicionada por la pose, y varias otras tareas. Para obtener más información, consulte https://4d-diffusion.github.io
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis
(NVS), conditioned on one or more images of a general scene, and a set of
camera poses and timestamps. To overcome challenges due to limited availability
of 4D training data, we advocate joint training on 3D (with camera pose), 4D
(pose+time) and video (time but no pose) data and propose a new architecture
that enables the same. We further advocate the calibration of SfM posed data
using monocular metric depth estimators for metric scale camera control. For
model evaluation, we introduce new metrics to enrich and overcome shortcomings
of current evaluation schemes, demonstrating state-of-the-art results in both
fidelity and pose control compared to existing diffusion models for 3D NVS,
while at the same time adding the ability to handle temporal dynamics. 4DiM is
also used for improved panorama stitching, pose-conditioned video to video
translation, and several other tasks. For an overview see
https://4d-diffusion.github.ioSummary
AI-Generated Summary