Schneller räumlicher Speicher mit elastischem Test-Time Training

Zusammenfassung

Large Chunk Test-Time Training (LaCT) hat gezeigt, dass es bei der 3D-Rekonstruktion mit langem Kontext starke Leistungen erbringt, aber die vollständig plastischen Inferenzzeit-Anpassungen bleiben anfällig für katastrophales Vergessen und Overfitting. Infolgedessen wird LaCT typischerweise mit einem einzelnen großen Datenblock instantiiert, der die gesamte Eingabesequenz abdeckt, was dem weiteren Ziel, beliebig lange Sequenzen in einem einzigen Durchlauf zu verarbeiten, nicht gerecht wird. Wir schlagen Elastic Test-Time Training vor, inspiriert durch elastische Gewichtskonsolidierung, das die LaCT-Fast-Weight-Updates mit einem Fisher-gewichteten elastischen Prior um einen beibehaltenen Ankerzustand stabilisiert. Der Anker entwickelt sich als exponentiell gleitender Durchschnitt vergangener Fast Weights, um Stabilität und Plastizität auszugleichen. Basierend auf dieser aktualisierten Architektur führen wir Fast Spatial Memory (FSM) ein, ein effizientes und skalierbares Modell für 4D-Rekonstruktion, das raumzeitliche Repräsentationen aus langen Beobachtungssequenzen lernt und neue Ansicht-Zeit-Kombinationen rendert. Wir haben FSM auf groß angelegten, kuratierten 3D/4D-Daten vortrainiert, um die Dynamik und Semantik komplexer räumlicher Umgebungen zu erfassen. Umfangreiche Experimente zeigen, dass FSM eine schnelle Anpassung über lange Sequenzen unterstützt und eine hochwertige 3D/4D-Rekonstruktion mit kleineren Datenblöcken liefert, wobei der Kamera-Interpolations-Shortcut abgemildert wird. Insgesamt hoffen wir, LaCT über die beschränkte Single-Chunk-Einstellung hinaus hin zu einer robusten Multi-Chunk-Adaption zu entwickeln – ein notwendiger Schritt für die Generalisierung auf tatsächlich längere Sequenzen – und gleichzeitig den Aktivierungsspeicher-Engpass erheblich zu verringern.

English

Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.

Schneller räumlicher Speicher mit elastischem Test-Time Training

Fast Spatial Memory with Elastic Test-Time Training

Zusammenfassung

Support