ChatPaper.aiChatPaper

동적 장면을 D4RT 한 번에 효율적으로 재구성하기

Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

December 9, 2025
저자: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI

초록

동영상으로부터 동적 장면의 복잡한 기하학적 구조와 운동을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 난제로 남아 있습니다. 본 논문은 이 과제를 효율적으로 해결하기 위해 설계된 간단하면서도 강력한 순전파 모델인 D4RT를 소개합니다. D4RT는 통합 트랜스포머 아키텍처를 활용하여 단일 동영상으로부터 깊이, 시공간 대응 관계 및 완전한 카메라 파라미터를 공동으로 추론합니다. 핵심 혁신은 조밀한 프레임별 디코딩의 막대한 계산량과 여러 개의 작업별 디코더를 관리하는 복잡성을 피하는 새로운 쿼리 메커니즘에 있습니다. 우리의 디코딩 인터페이스는 모델이 시공간 상의 임의의 점에 대한 3차원 위치를 독립적이고 유연하게 탐색할 수 있게 합니다. 그 결과 매우 효율적인 학습과 추론을 가능하게 하는 경량이면서도 확장성이 뛰어난 방법을 얻었습니다. 우리의 접근 방식이 다양한 4차원 재구성 작업에서 기존 방법들을 능가하는 새로운 최첨단 성능을 달성함을 보여줍니다. 애니메이션 결과는 프로젝트 웹페이지(https://d4rt-paper.github.io/)를 참조하시기 바랍니다.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.
PDF31December 11, 2025