Быстрая генерация 4D-сетки с помощью пространственно-временных цепочек внимания

Аннотация

Генерация 4D-сеток недавно стала мощным подходом для восстановления динамической 3D-структуры из видео, однако существующие методы остаются медленными, вычислительно затратными и трудно масштабируются до более длинных последовательностей. Мы представляем подход, не требующий обучения, который ускоряет генерацию 4D-сеток, одновременно улучшая качество временных соответствий. Ключевое наблюдение заключается в том, что временные соответствия возникают внутри 4D-основы задолго до того, как сгенерированные сетки становятся визуально точными. Мы используем это с помощью общей структуры, которую называем Цепочкой пространственно-временного внимания, распространяющей информацию в пространстве и времени. Начиная с вершин на опорной сетке, цепочка отображает вершины в скрытые токены. Затем она отслеживает временные соответствия в скрытом пространстве и восстанавливает покадровые вершины с помощью внимания от скрытых к вершинам. Такая конструкция позволяет избежать дорогостоящего явного сопоставления, сохраняя детали опорной сетки, тем самым улучшая геометрию динамической сетки и временную согласованность. По сравнению с современными методами, наш подход генерирует 4D-сетку за 9 секунд, достигая 13-кратного ускорения и обеспечивая результаты более высокого качества. Более того, наш подход масштабируется до видео в 16 раз длиннее без ухудшения качества сетки. Помимо генерации, улучшенные соответствия обеспечивают конкурентоспособную производительность без обучения на двух прикладных задачах: отслеживании 2D-объектов и 4D-отслеживании. Мы также показываем, что наш подход обеспечивает надежную оценку камеры — возможность, не поддерживаемую предыдущими методами генерации 4D-сеток.

English

4D mesh generation has recently emerged as a powerful paradigm for recovering dynamic 3D structure from videos, but existing methods remain slow, computationally expensive, and difficult to scale to longer sequences. We introduce a training-free approach that accelerates 4D mesh generation while improving temporal correspondence quality. Our key observation is that temporal correspondences emerge inside a 4D backbone long before its generated meshes become visually accurate. We exploit this with a general framework we call Spatio-Temporal Attention Chain which propagates information across space and time. Starting from vertices on an anchor mesh, the chain maps vertices to latent tokens. It then follows temporal correspondences in latent space, and recovers frame-specific vertices through latent-to-vertex attention. This design avoids expensive explicit matching while preserving anchor mesh details and thereby improving dynamic mesh geometry and temporal consistency. Compared to state-of-the-art, our method generates a 4D mesh in 9 seconds, achieving a 13times speedup while producing higher-quality results. Moreover, our approach scales to videos up to 16times longer without degrading mesh quality. Beyond generation, the improved correspondences enable competitive zero-shot performance on two downstream tasks: 2D object tracking and 4D tracking. We further show that our framework enables reliable camera estimation, a capability not supported by prior 4D mesh generation methods.