Schnelle 4D-Mesh-Generierung durch räumlich-zeitliche Aufmerksamkeitsketten

Zusammenfassung

Die 4D-Netzgenerierung hat sich in letzter Zeit als leistungsstarkes Paradigma zur Rekonstruktion dynamischer 3D-Strukturen aus Videos erwiesen, doch bestehende Methoden bleiben langsam, rechenintensiv und schwer auf längere Sequenzen skalierbar. Wir stellen einen trainingsfreien Ansatz vor, der die 4D-Netzgenerierung beschleunigt und gleichzeitig die Qualität der zeitlichen Korrespondenz verbessert. Unsere zentrale Beobachtung ist, dass zeitliche Korrespondenzen in einem 4D-Grundgerüst auftreten, lange bevor dessen generierte Netze visuell korrekt werden. Wir nutzen dies mit einem allgemeinen Rahmenwerk, das wir als Spatio-Temporal Attention Chain bezeichnen, das Informationen über Raum und Zeit propagiert. Ausgehend von Scheitelpunkten auf einem Anker-Netz bildet die Kette Scheitelpunkte auf latente Token ab. Sie folgt dann zeitlichen Korrespondenzen im latenten Raum und gewinnt framespezifische Scheitelpunkte durch eine latent-zu-Scheitelpunkt-Aufmerksamkeit zurück. Dieses Design vermeidet teures explizites Matching, bewahrt Details des Anker-Netzes und verbessert so die dynamische Netzgeometrie und zeitliche Konsistenz. Im Vergleich zum Stand der Technik erzeugt unsere Methode ein 4D-Netz in 9 Sekunden, erreicht eine 13-fache Beschleunigung und liefert dabei qualitativ hochwertigere Ergebnisse. Darüber hinaus skaliert unser Ansatz auf Videos, die bis zu 16-mal länger sind, ohne die Netzqualität zu beeinträchtigen. Über die Generierung hinaus ermöglichen die verbesserten Korrespondenzen eine wettbewerbsfähige Zero-Shot-Leistung bei zwei nachgelagerten Aufgaben: 2D-Objektverfolgung und 4D-Verfolgung. Wir zeigen weiterhin, dass unser Rahmenwerk eine zuverlässige Kameraschätzung ermöglicht, eine Fähigkeit, die von früheren 4D-Netzgenerierungsmethoden nicht unterstützt wurde.

English

4D mesh generation has recently emerged as a powerful paradigm for recovering dynamic 3D structure from videos, but existing methods remain slow, computationally expensive, and difficult to scale to longer sequences. We introduce a training-free approach that accelerates 4D mesh generation while improving temporal correspondence quality. Our key observation is that temporal correspondences emerge inside a 4D backbone long before its generated meshes become visually accurate. We exploit this with a general framework we call Spatio-Temporal Attention Chain which propagates information across space and time. Starting from vertices on an anchor mesh, the chain maps vertices to latent tokens. It then follows temporal correspondences in latent space, and recovers frame-specific vertices through latent-to-vertex attention. This design avoids expensive explicit matching while preserving anchor mesh details and thereby improving dynamic mesh geometry and temporal consistency. Compared to state-of-the-art, our method generates a 4D mesh in 9 seconds, achieving a 13times speedup while producing higher-quality results. Moreover, our approach scales to videos up to 16times longer without degrading mesh quality. Beyond generation, the improved correspondences enable competitive zero-shot performance on two downstream tasks: 2D object tracking and 4D tracking. We further show that our framework enables reliable camera estimation, a capability not supported by prior 4D mesh generation methods.