Snelle 4D-meshgeneratie door ruimtelijk-temporele aandachtsketens

Samenvatting

4D-meshgeneratie is recentelijk naar voren gekomen als een krachtig paradigma voor het reconstrueren van dynamische 3D-structuur uit video's, maar bestaande methoden blijven traag, rekenkundig duur en moeilijk op te schalen naar langere reeksen. We introduceren een trainingsvrije benadering die de 4D-meshgeneratie versnelt terwijl de kwaliteit van temporele correspondentie verbetert. Onze belangrijkste observatie is dat temporele correspondenties in een 4D-backbone ontstaan lang voordat de gegenereerde meshes visueel accuraat worden. We benutten dit met een algemeen raamwerk dat we Ruimtelijk-Temporele Aandachtsketen noemen, dat informatie over ruimte en tijd verspreidt. Beginnend bij vertices op een ankermesh, zet de keten vertices om in latente tokens. Vervolgens volgt het temporele correspondenties in de latente ruimte en herstelt het framespecifieke vertices via latent-naar-vertex-aandacht. Dit ontwerp vermijdt dure expliciete matching terwijl het de details van de ankermesh behoudt en daarmee de dynamische meshgeometrie en temporele consistentie verbetert. Vergeleken met de state-of-the-art genereert onze methode een 4D-mesh in 9 seconden, wat een 13-voudige versnelling oplevert terwijl resultaten van hogere kwaliteit worden geproduceerd. Bovendien schaalt onze aanpak naar video's tot 16 keer langer zonder verslechtering van de meshkwaliteit. Naast generatie stellen de verbeterde correspondenties ons in staat om competitieve zero-shot-prestaties te leveren op twee downstream taken: 2D-objecttracking en 4D-tracking. Verder tonen we aan dat ons raamwerk betrouwbare cameraschatting mogelijk maakt, een mogelijkheid die niet wordt ondersteund door eerdere 4D-meshgeneratiemethoden.

English

4D mesh generation has recently emerged as a powerful paradigm for recovering dynamic 3D structure from videos, but existing methods remain slow, computationally expensive, and difficult to scale to longer sequences. We introduce a training-free approach that accelerates 4D mesh generation while improving temporal correspondence quality. Our key observation is that temporal correspondences emerge inside a 4D backbone long before its generated meshes become visually accurate. We exploit this with a general framework we call Spatio-Temporal Attention Chain which propagates information across space and time. Starting from vertices on an anchor mesh, the chain maps vertices to latent tokens. It then follows temporal correspondences in latent space, and recovers frame-specific vertices through latent-to-vertex attention. This design avoids expensive explicit matching while preserving anchor mesh details and thereby improving dynamic mesh geometry and temporal consistency. Compared to state-of-the-art, our method generates a 4D mesh in 9 seconds, achieving a 13times speedup while producing higher-quality results. Moreover, our approach scales to videos up to 16times longer without degrading mesh quality. Beyond generation, the improved correspondences enable competitive zero-shot performance on two downstream tasks: 2D object tracking and 4D tracking. We further show that our framework enables reliable camera estimation, a capability not supported by prior 4D mesh generation methods.