Memoria Spaziale Rapida con Addestramento Elastico al Momento del Test

Abstract

Il Large Chunk Test-Time Training (LaCT) ha dimostrato prestazioni solide nella ricostruzione 3D a contesto lungo, ma i suoi aggiornamenti completamente plastici durante l'inferenza rimangono vulnerabili alla dimenticanza catastrofica e all'overfitting. Di conseguenza, LaCT viene tipicamente implementato con un singolo grande chunk che copre l'intera sequenza di input, non raggiungendo l'obiettivo più ampio di elaborare sequenze arbitrariamente lunghe in un'unica passata. Proponiamo l'Elastic Test-Time Training, ispirato alla elastic weight consolidation, che stabilizza gli aggiornamenti dei pesi rapidi di LaCT mediante un prior elastico pesato secondo Fisher attorno a uno stato di ancoraggio mantenuto. L'ancoraggio evolve come una media mobile esponenziale dei pesi rapidi passati per bilanciare stabilità e plasticità. Basandoci su questa architettura aggiornata, introduciamo la Fast Spatial Memory (FSM), un modello efficiente e scalabile per la ricostruzione 4D che apprende rappresentazioni spaziotemporali da lunghe sequenze di osservazione e renderizza nuove combinazioni vista-tempo. Abbiamo pre-addestrato FSM su dati 3D/4D curati su larga scala per catturare la dinamica e la semantica di ambienti spaziali complessi. Esperimenti estensivi mostrano che FSM supporta un adattamento rapido su sequenze lunghe e fornisce una ricostruzione 3D/4D di alta qualità con chunk più piccoli, mitigando la scorciatoia dell'interpolazione della telecamera. In sintesi, miriamo a far evolvere LaCT oltre l'impostazione limitata del single-chunk verso un adattamento multi-chunk robusto, un passo necessario per la generalizzazione a sequenze genuinamente più lunghe, allevando al contempo sostanzialmente il collo di bottiglia della memoria di attivazione.

English

Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.

Memoria Spaziale Rapida con Addestramento Elastico al Momento del Test

Fast Spatial Memory with Elastic Test-Time Training

Abstract

Support