4D-LRM: Масштабная модель реконструкции пространства-времени для любого ракурса в любой момент времени

Аннотация

Можем ли мы масштабировать 4D-предобучение для изучения общих пространственно-временных представлений, которые восстанавливают объект по нескольким видам в определённые моменты времени до любого вида в любое время? Мы даём утвердительный ответ с помощью 4D-LRM — первой крупномасштабной модели 4D-реконструкции, которая принимает входные данные из произвольных видов и временных меток и визуализирует произвольные комбинации новых видов и времени. В отличие от предыдущих 4D-подходов, таких как оптимизационные, геометрические или генеративные, которые сталкиваются с проблемами эффективности, обобщения или точности, 4D-LRM изучает унифицированное пространственно-временное представление и напрямую предсказывает 4D-гауссовы примитивы на уровне пикселей из размеченных изображений во времени, что позволяет быстро и качественно визуализировать данные с, в принципе, бесконечной частотой кадров. Наши результаты демонстрируют, что масштабирование пространственно-временного предобучения обеспечивает точную и эффективную 4D-реконструкцию. Мы показываем, что 4D-LRM обобщается на новые объекты, интерполирует по времени и справляется с разнообразными настройками камер. Модель восстанавливает 24-кадровые последовательности за один прямой проход менее чем за 1,5 секунды на одном GPU A100.

English

Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.

4D-LRM: Масштабная модель реконструкции пространства-времени для любого ракурса в любой момент времени

4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

Аннотация

Support