Reconstruction efficace de scènes dynamiques, un D4RT à la fois
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
December 9, 2025
papers.authors: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI
papers.abstract
La compréhension et la reconstruction de la géométrie et du mouvement complexes de scènes dynamiques à partir de vidéo demeurent un défi de taille en vision par ordinateur. Cet article présente D4RT, un modèle feedforward simple mais puissant conçu pour résoudre efficacement cette tâche. D4RT utilise une architecture de transformateur unifiée pour inférer conjointement la profondeur, la correspondance spatio-temporelle et les paramètres complets de la caméra à partir d'une seule vidéo. Son innovation principale réside dans un nouveau mécanisme d'interrogation qui évite le calcul intensif du décodage dense image par image et la complexité de la gestion de multiples décodeurs spécialisés par tâche. Notre interface de décodage permet au modèle d'explorer de manière indépendante et flexible la position 3D de tout point dans l'espace et le temps. Il en résulte une méthode légère et très évolutive qui permet un entraînement et une inférence remarquablement efficaces. Nous démontrons que notre approche établit un nouvel état de l'art, surpassant les méthodes précédentes sur un large éventail de tâches de reconstruction 4D. Nous renvoyons à la page web du projet pour des résultats animés : https://d4rt-paper.github.io/.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.