ChatPaper.aiChatPaper

Effiziente Rekonstruktion dynamischer Szenen – ein D4RT nach dem anderen

Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

December 9, 2025
papers.authors: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI

papers.abstract

Das Verständnis und die Rekonstruktion der komplexen Geometrie und Bewegung dynamischer Szenen aus Videos bleibt eine große Herausforderung in der Computer Vision. Dieses Paper stellt D4RT vor, ein einfaches, aber leistungsstarkes Vorwärtsmodell, das entwickelt wurde, um diese Aufgabe effizient zu lösen. D4RT nutzt eine einheitliche Transformer-Architektur, um gemeinsam Tiefe, raum-zeitliche Korrespondenz und vollständige Kameraparameter aus einem einzelnen Video abzuleiten. Sein Kerninnovation ist ein neuartiger Abfragemechanismus, der den hohen Rechenaufwand einer dichten, pro-Bild-Decodierung und die Komplexität der Verwaltung mehrerer, aufgabenspezifischer Decoder umgeht. Unsere Decodier-Schnittstelle ermöglicht es dem Modell, unabhängig und flexibel die 3D-Position jedes beliebigen Punktes in Raum und Zeit zu untersuchen. Das Ergebnis ist eine leichtgewichtige und hochskalierbare Methode, die eine bemerkenswert effiziente Trainierung und Inferenz ermöglicht. Wir zeigen, dass unser Ansatz einen neuen State-of-the-Art etabliert und bisherige Methoden bei einer breiten Palette von 4D-Rekonstruktionsaufgaben übertrifft. Wir verweisen auf die Projektwebseite für animierte Ergebnisse: https://d4rt-paper.github.io/.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.
PDF31December 11, 2025