Contrôler l'espace et le temps avec les modèles de diffusion
Controlling Space and Time with Diffusion Models
July 10, 2024
Auteurs: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI
Résumé
Nous présentons 4DiM, un modèle de diffusion en cascade pour la synthèse de nouvelles vues 4D (NVS), conditionné sur une ou plusieurs images d'une scène générale, ainsi qu'un ensemble de poses de caméra et de timestamps. Pour surmonter les défis liés à la disponibilité limitée de données d'entraînement 4D, nous préconisons un entraînement conjoint sur des données 3D (avec pose de caméra), 4D (pose+temps) et vidéo (temps mais sans pose), et proposons une nouvelle architecture qui permet cela. Nous recommandons également l'étalonnage des données de pose SfM à l'aide d'estimateurs de profondeur métrique monoculaires pour un contrôle métrique de l'échelle de la caméra. Pour l'évaluation du modèle, nous introduisons de nouvelles métriques pour enrichir et pallier les lacunes des schémas d'évaluation actuels, démontrant des résultats de pointe en termes de fidélité et de contrôle de la pose par rapport aux modèles de diffusion existants pour la NVS 3D, tout en ajoutant la capacité de gérer les dynamiques temporelles. 4DiM est également utilisé pour améliorer le stitching de panoramas, la traduction vidéo à vidéo conditionnée par la pose, et plusieurs autres tâches. Pour un aperçu, consultez https://4d-diffusion.github.io.
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis
(NVS), conditioned on one or more images of a general scene, and a set of
camera poses and timestamps. To overcome challenges due to limited availability
of 4D training data, we advocate joint training on 3D (with camera pose), 4D
(pose+time) and video (time but no pose) data and propose a new architecture
that enables the same. We further advocate the calibration of SfM posed data
using monocular metric depth estimators for metric scale camera control. For
model evaluation, we introduce new metrics to enrich and overcome shortcomings
of current evaluation schemes, demonstrating state-of-the-art results in both
fidelity and pose control compared to existing diffusion models for 3D NVS,
while at the same time adding the ability to handle temporal dynamics. 4DiM is
also used for improved panorama stitching, pose-conditioned video to video
translation, and several other tasks. For an overview see
https://4d-diffusion.github.ioSummary
AI-Generated Summary