Geração Rápida de Malha 4D por Cadeias de Atenção Espaço-Temporais

Resumo

A geração de malhas 4D surgiu recentemente como um paradigma poderoso para recuperar estruturas 3D dinâmicas a partir de vídeos, mas os métodos existentes permanecem lentos, computacionalmente caros e difíceis de escalar para sequências mais longas. Apresentamos uma abordagem livre de treinamento que acelera a geração de malhas 4D enquanto melhora a qualidade da correspondência temporal. Nossa observação chave é que correspondências temporais emergem dentro de um backbone 4D muito antes de suas malhas geradas se tornarem visualmente precisas. Exploramos isso com uma estrutura geral que chamamos de Cadeia de Atenção Espaço-Temporal, que propaga informações através do espaço e do tempo. Começando a partir de vértices em uma malha âncora, a cadeia mapeia vértices para tokens latentes. Em seguida, segue correspondências temporais no espaço latente e recupera vértices específicos do quadro através de atenção latente-para-vértice. Esse design evita correspondência explícita cara enquanto preserva detalhes da malha âncora, melhorando assim a geometria dinâmica da malha e a consistência temporal. Comparado ao estado da arte, nosso método gera uma malha 4D em 9 segundos, alcançando uma aceleração de 13 vezes enquanto produz resultados de maior qualidade. Além disso, nossa abordagem escala para vídeos até 16 vezes mais longos sem degradar a qualidade da malha. Além da geração, as correspondências melhoradas permitem desempenho competitivo zero-shot em duas tarefas downstream: rastreamento de objetos 2D e rastreamento 4D. Mostramos ainda que nossa estrutura permite estimativa confiável de câmera, uma capacidade não suportada por métodos anteriores de geração de malhas 4D.

English

4D mesh generation has recently emerged as a powerful paradigm for recovering dynamic 3D structure from videos, but existing methods remain slow, computationally expensive, and difficult to scale to longer sequences. We introduce a training-free approach that accelerates 4D mesh generation while improving temporal correspondence quality. Our key observation is that temporal correspondences emerge inside a 4D backbone long before its generated meshes become visually accurate. We exploit this with a general framework we call Spatio-Temporal Attention Chain which propagates information across space and time. Starting from vertices on an anchor mesh, the chain maps vertices to latent tokens. It then follows temporal correspondences in latent space, and recovers frame-specific vertices through latent-to-vertex attention. This design avoids expensive explicit matching while preserving anchor mesh details and thereby improving dynamic mesh geometry and temporal consistency. Compared to state-of-the-art, our method generates a 4D mesh in 9 seconds, achieving a 13times speedup while producing higher-quality results. Moreover, our approach scales to videos up to 16times longer without degrading mesh quality. Beyond generation, the improved correspondences enable competitive zero-shot performance on two downstream tasks: 2D object tracking and 4D tracking. We further show that our framework enables reliable camera estimation, a capability not supported by prior 4D mesh generation methods.