Memória Espacial Rápida com Treinamento Elástico em Tempo de Teste

Resumo

O Treinamento em Tempo de Teste com Grandes Segmentos (LaCT) demonstrou um forte desempenho na reconstrução 3D de contexto longo, mas as suas atualizações totalmente plásticas durante a inferência permanecem vulneráveis ao esquecimento catastrófico e ao sobreajuste. Como resultado, o LaCT é tipicamente instanciado com um único segmento grande que abrange toda a sequência de entrada, ficando aquém do objetivo mais amplo de processar sequências arbitrariamente longas em uma única passagem. Propomos o Treinamento em Tempo de Teste Elástico, inspirado na consolidação elástica de pesos, que estabiliza as atualizações de pesos rápidos do LaCT com um prior elástico ponderado pela matriz de Fisher em torno de um estado âncora mantido. O âncora evolui como uma média móvel exponencial dos pesos rápidos passados para equilibrar estabilidade e plasticidade. Com base nesta arquitetura atualizada, introduzimos a Memória Espacial Rápida (FSM), um modelo eficiente e escalável para reconstrução 4D que apreende representações espaço-temporais a partir de longas sequências de observação e renderiza novas combinações de vista-tempo. Pré-treinamos a FSM em dados 3D/4D curados em larga escala para capturar a dinâmica e a semântica de ambientes espaciais complexos. Experimentos extensivos mostram que a FSM suporta uma adaptação rápida ao longo de longas sequências e produz reconstrução 3D/4D de alta qualidade com segmentos menores, mitigando o atalho da interpolação de câmera. No geral, esperamos avançar o LaCT para além do cenário limitado de segmento único em direção a uma adaptação robusta de múltiplos segmentos, um passo necessário para a generalização para sequências genuinamente mais longas, enquanto alivia substancialmente o gargalo de memória de ativação.

English

Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.

Memória Espacial Rápida com Treinamento Elástico em Tempo de Teste

Fast Spatial Memory with Elastic Test-Time Training

Resumo

Support