ChatPaper.aiChatPaper

Die Kontrolle von Raum und Zeit mit Diffusionsmodellen

Controlling Space and Time with Diffusion Models

July 10, 2024
Autoren: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI

Zusammenfassung

Wir präsentieren 4DiM, ein gestaffeltes Diffusionsmodell für die Synthese neuartiger Ansichten in 4D (NVS), abhängig von einem oder mehreren Bildern einer allgemeinen Szene sowie einer Reihe von Kamerapositionen und Zeitstempeln. Um Herausforderungen aufgrund der begrenzten Verfügbarkeit von 4D-Trainingsdaten zu überwinden, befürworten wir ein gemeinsames Training an 3D (mit Kameraposition), 4D (Position+Zeit) und Videodaten (nur Zeit, keine Position) und schlagen eine neue Architektur vor, die dies ermöglicht. Des Weiteren befürworten wir die Kalibrierung von SfM-Positionierungsdaten unter Verwendung monokularer metrischer Tiefenschätzer für metrische Skalenkamerasteuerung. Zur Modellbewertung führen wir neue Metriken ein, um die aktuellen Bewertungsschemata zu bereichern und deren Schwächen zu überwinden. Wir demonstrieren modernste Ergebnisse sowohl in Bezug auf Treue als auch auf Positionssteuerung im Vergleich zu bestehenden Diffusionsmodellen für 3D-NVS und fügen gleichzeitig die Fähigkeit hinzu, zeitliche Dynamiken zu bewältigen. 4DiM wird auch zur verbesserten Panoramazusammensetzung, zur positionsabhängigen Video-zu-Video-Übersetzung und für mehrere andere Aufgaben verwendet. Für eine Übersicht besuchen Sie https://4d-diffusion.github.io.
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), conditioned on one or more images of a general scene, and a set of camera poses and timestamps. To overcome challenges due to limited availability of 4D training data, we advocate joint training on 3D (with camera pose), 4D (pose+time) and video (time but no pose) data and propose a new architecture that enables the same. We further advocate the calibration of SfM posed data using monocular metric depth estimators for metric scale camera control. For model evaluation, we introduce new metrics to enrich and overcome shortcomings of current evaluation schemes, demonstrating state-of-the-art results in both fidelity and pose control compared to existing diffusion models for 3D NVS, while at the same time adding the ability to handle temporal dynamics. 4DiM is also used for improved panorama stitching, pose-conditioned video to video translation, and several other tasks. For an overview see https://4d-diffusion.github.io

Summary

AI-Generated Summary

PDF171November 28, 2024