Reconstrucción eficiente de escenas dinámicas un D4RT a la vez
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
December 9, 2025
Autores: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI
Resumen
La comprensión y reconstrucción de la geometría y el movimiento complejos de escenas dinámicas a partir de vídeo sigue siendo un desafío formidable en la visión por computador. Este artículo presenta D4RT, un modelo directo simple pero potente diseñado para resolver esta tarea de manera eficiente. D4RT utiliza una arquitectura unificada de transformadores para inferir conjuntamente la profundidad, la correspondencia espacio-temporal y los parámetros completos de la cámara a partir de un único vídeo. Su innovación principal es un novedoso mecanismo de consulta que evita la pesada computación de la decodificación densa por fotograma y la complejidad de gestionar múltiples decodificadores específicos para cada tarea. Nuestra interfaz de decodificación permite al modelo sondear de forma independiente y flexible la posición 3D de cualquier punto en el espacio y el tiempo. El resultado es un método ligero y altamente escalable que permite un entrenamiento e inferencia notablemente eficientes. Demostramos que nuestro enfoque establece un nuevo estado del arte, superando a métodos anteriores en un amplio espectro de tareas de reconstrucción 4D. Remitimos a la página web del proyecto para ver los resultados animados: https://d4rt-paper.github.io/.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.