ChatPaper.aiChatPaper

効率的な動的シーン再構築:一度に1つのD4RTで

Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

December 9, 2025
著者: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI

要旨

動的シーンにおける複雑な幾何学構造と運動を映像から理解し再構築することは、コンピュータビジョンにおける依然として困難な課題である。本論文は、この課題を効率的に解決するために設計された、シンプルかつ強力な順伝播型モデルであるD4RTを提案する。D4RTは統一されたトランスフォーマーアーキテクチャを利用し、単一の映像から深度、時空間的対応関係、および完全なカメラパラメータを共同で推論する。その中核となる革新は、密なフレーム単位のデコーディングに伴う膨大な計算や、複数のタスク特化型デコーダを管理する複雑さを回避する、新規のクエリ機構である。本モデルのデコーディングインターフェースは、時空間内の任意の点の3次元位置を独立かつ柔軟に探索することを可能にする。その結果、軽量で拡張性の高い手法を実現し、非常に効率的な学習と推論を可能とする。我々のアプローチは、広範な4次元再構築タスクにおいて従来手法を凌駕し、新たな技術水準を確立することを実証する。動画による結果はプロジェクトWebページ(https://d4rt-paper.github.io/)を参照されたい。
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.
PDF31December 11, 2025