Mémoire Spatiale Rapide avec Apprentissage Élastique au Moment du Test

Résumé

L’apprentissage par grands segments en temps de test (LaCT) a démontré des performances solides pour la reconstruction 3D en contexte long, mais ses mises à jour entièrement plastiques lors de l'inférence restent vulnérables à l'oubli catastrophique et au surapprentissage. Par conséquent, LaCT est généralement instancié avec un seul grand segment couvrant la séquence d'entrée complète, ce qui ne permet pas d'atteindre l'objectif plus large de traiter des séquences arbitrairement longues en une seule passe. Nous proposons l’apprentissage élastique en temps de test, inspiré de la consolidation élastique des poids, qui stabilise les mises à jour des poids rapides de LaCT grâce à un a priori élastique pondéré par la matrice de Fisher autour d'un état d'ancrage maintenu. L'ancre évolue comme une moyenne mobile exponentielle des poids rapides passés pour équilibrer stabilité et plasticité. Sur la base de cette architecture mise à jour, nous présentons la Mémoire Spatiale Rapide (FSM), un modèle efficace et évolutif pour la reconstruction 4D qui apprend des représentations spatiotemporelles à partir de longues séquences d'observation et génère de nouvelles combinaisons vue-temps. Nous avons pré-entraîné FSM sur des données 3D/4D curatisées à grande échelle pour capturer la dynamique et la sémantique d'environnements spatiaux complexes. Des expériences approfondies montrent que FSM permet une adaptation rapide sur de longues séquences et fournit une reconstruction 3D/4D de haute qualité avec des segments plus petits, atténuant ainsi le raccourci d'interpolation de caméra. Globalement, nous espérons faire progresser LaCT au-delà du cadre limité du segment unique vers une adaptation robuste multi-segments, une étape nécessaire pour la généralisation à des séquences véritablement plus longues, tout en atténuant substantiellement le goulot d'étranglement de la mémoire d'activation.

English

Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.

Mémoire Spatiale Rapide avec Apprentissage Élastique au Moment du Test

Fast Spatial Memory with Elastic Test-Time Training

Résumé

Support