Reconstruindo Cenas Dinâmicas de Forma Eficiente, um D4RT de Cada Vez
Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
December 9, 2025
Autores: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI
Resumo
A compreensão e reconstrução da geometria e do movimento complexos de cenas dinâmicas a partir de vídeo continua a ser um desafio formidável na visão computacional. Este artigo apresenta o D4RT, um modelo *feedforward* simples, mas poderoso, concebido para resolver esta tarefa de forma eficiente. O D4RT utiliza uma arquitetura unificada de *transformers* para inferir conjuntamente a profundidade, a correspondência espaço-temporal e os parâmetros completos da câmara a partir de um único vídeo. A sua principal inovação é um novo mecanismo de consulta que contorna a computação intensiva da descodificação densa por fotograma e a complexidade de gerir múltiplos descodificadores específicos para cada tarefa. A nossa interface de descodificação permite ao modelo sondar de forma independente e flexível a posição 3D de qualquer ponto no espaço e no tempo. O resultado é um método leve e altamente escalável que permite um treino e uma inferência notavelmente eficientes. Demonstramos que a nossa abordagem estabelece um novo estado da arte, superando métodos anteriores numa ampla gama de tarefas de reconstrução 4D. Remetemos para a página web do projeto para resultados animados: https://d4rt-paper.github.io/.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.