ChatPaper.aiChatPaper

4D-LRM: Масштабная модель реконструкции пространства-времени для любого ракурса в любой момент времени

4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

June 23, 2025
Авторы: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan
cs.AI

Аннотация

Можем ли мы масштабировать 4D-предобучение для изучения общих пространственно-временных представлений, которые восстанавливают объект по нескольким видам в определённые моменты времени до любого вида в любое время? Мы даём утвердительный ответ с помощью 4D-LRM — первой крупномасштабной модели 4D-реконструкции, которая принимает входные данные из произвольных видов и временных меток и визуализирует произвольные комбинации новых видов и времени. В отличие от предыдущих 4D-подходов, таких как оптимизационные, геометрические или генеративные, которые сталкиваются с проблемами эффективности, обобщения или точности, 4D-LRM изучает унифицированное пространственно-временное представление и напрямую предсказывает 4D-гауссовы примитивы на уровне пикселей из размеченных изображений во времени, что позволяет быстро и качественно визуализировать данные с, в принципе, бесконечной частотой кадров. Наши результаты демонстрируют, что масштабирование пространственно-временного предобучения обеспечивает точную и эффективную 4D-реконструкцию. Мы показываем, что 4D-LRM обобщается на новые объекты, интерполирует по времени и справляется с разнообразными настройками камер. Модель восстанавливает 24-кадровые последовательности за один прямой проход менее чем за 1,5 секунды на одном GPU A100.
English
Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.
PDF31June 24, 2025