Ricostruzione Efficiente di Scene Dinamiche un D4RT alla Volta
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
December 9, 2025
Autori: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI
Abstract
Comprendere e ricostruire la geometria complessa e il movimento di scene dinamiche a partire da video rimane una sfida formidabile nella visione artificiale. Questo articolo presenta D4RT, un modello feedforward semplice ma potente progettato per risolvere efficientemente questo compito. D4RT utilizza un'architettura transformer unificata per inferire congiuntamente la profondità, la corrispondenza spazio-temporale e i parametri completi della telecamera da un singolo video. La sua innovazione fondamentale è un nuovo meccanismo di query che evita l'oneroso calcolo della decodifica densa per fotogramma e la complessità della gestione di molteplici decoder specifici per compito. La nostra interfaccia di decodifica consente al modello di sondare in modo indipendente e flessibile la posizione 3D di qualsiasi punto nello spazio e nel tempo. Il risultato è un metodo leggero e altamente scalabile che permette un addestramento e un'inferenza straordinariamente efficienti. Dimostriamo che il nostro approccio stabilisce un nuovo stato dell'arte, superando i metodi precedenti in un'ampia gamma di compiti di ricostruzione 4D. Rimandiamo alla pagina web del progetto per i risultati animati: https://d4rt-paper.github.io/.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.