Efficiënte Reconstructie van Dynamische Scènes, Eén D4RT per Keer
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
December 9, 2025
Auteurs: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI
Samenvatting
Het begrijpen en reconstrueren van de complexe geometrie en beweging van dynamische scènes uit video blijft een formidabele uitdaging in de computer vision. Dit artikel introduceert D4RT, een eenvoudig maar krachtig feedforward-model dat is ontworpen om deze taak efficiënt op te lossen. D4RT gebruikt een uniforme transformer-architectuur om gezamenlijk diepte, spatio-temporele correspondentie en volledige cameraparameters uit een enkele video af te leiden. De kerninnovatie is een nieuw querymechanisme dat de zware berekening van dicht, per-frame decoderen en de complexiteit van het beheren van meerdere, taakspecifieke decoders omzeilt. Onze decodeerinterface stelt het model in staat om onafhankelijk en flexibel de 3D-positie van elk punt in ruimte en tijd te onderzoeken. Het resultaat is een lichtgewicht en zeer schaalbare methode die opmerkelijk efficiënte training en inferentie mogelijk maakt. Wij tonen aan dat onze aanpak een nieuwe state-of-the-art vestigt en eerdere methoden over een breed spectrum van 4D-reconstructietaken overtreft. Voor geanimeerde resultaten verwijzen wij naar de projectwebpagina: https://d4rt-paper.github.io/.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.