ChatPaper.aiChatPaper

Эффективное восстановление динамических сцен по одному D4RT за раз

Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

December 9, 2025
Авторы: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi SM Sajjadi
cs.AI

Аннотация

Понимание и реконструкция сложной геометрии и движения динамических сцен из видеопоследовательностей остается серьезной проблемой в компьютерном зрении. В данной статье представлена модель D4RT — простая, но мощная прямоточная модель, разработанная для эффективного решения этой задачи. D4RT использует унифицированную трансформерную архитектуру для совместного вывода глубины, пространственно-временных соответствий и полных параметров камеры из одного видео. Её ключевым нововведением является новый механизм запросов, который позволяет обойти сложные вычисления, связанные с плотным декодированием для каждого кадра, и сложность управления несколькими декодерами для конкретных задач. Наш интерфейс декодирования позволяет модели независимо и гибко исследовать 3D-положение любой точки в пространстве и времени. В результате получается легковесный и высокомасштабируемый метод, обеспечивающий исключительно эффективные обучение и вывод. Мы демонстрируем, что наш подход устанавливает новый state-of-the-art, превосходя предыдущие методы в широком спектре задач 4D-реконструкции. Анимированные результаты доступны на странице проекта: https://d4rt-paper.github.io/.
English
Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.
PDF31December 11, 2025