Memoria Espacial Rápida con Entrenamiento Elástico en Tiempo de Prueba

Resumen

El Entrenamiento en Tiempo de Prueba con Fragmentos Grandes (LaCT) ha demostrado un rendimiento sólido en la reconstrucción 3D de contexto largo, pero sus actualizaciones plásticas en tiempo de inferencia siguen siendo vulnerables al olvido catastrófico y al sobreajuste. Como resultado, LaCT normalmente se instancia con un único fragmento grande que abarca toda la secuencia de entrada, quedando por debajo del objetivo más amplio de manejar secuencias arbitrariamente largas en una sola pasada. Proponemos el Entrenamiento en Tiempo de Prueba Elástico, inspirado en la consolidación elástica de pesos, que estabiliza las actualizaciones de pesos rápidos de LaCT con un previo elástico ponderado por Fisher alrededor de un estado de ancla mantenido. La ancla evoluciona como una media móvil exponencial de los pesos rápidos pasados para equilibrar estabilidad y plasticidad. Basándonos en esta arquitectura actualizada, presentamos Memoria Espacial Rápida (FSM, por sus siglas en inglés), un modelo eficiente y escalable para la reconstrucción 4D que aprende representaciones espacio-temporales a partir de largas secuencias de observación y renderiza nuevas combinaciones de vista y tiempo. Pre-entrenamos FSM en datos 3D/4D curados a gran escala para capturar la dinámica y la semántica de entornos espaciales complejos. Experimentos exhaustivos muestran que FSM admite una adaptación rápida en secuencias largas y ofrece una reconstrucción 3D/4D de alta calidad con fragmentos más pequeños, mitigando el atajo de interpolación de cámara. En general, esperamos llevar a LaCT más allá del escenario limitado de fragmento único hacia una adaptación robusta multi-fragmento, un paso necesario para la generalización a secuencias genuinamente más largas, mientras se alivia sustancialmente el cuello de botella de la memoria de activación.

English

Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.

Memoria Espacial Rápida con Entrenamiento Elástico en Tiempo de Prueba

Fast Spatial Memory with Elastic Test-Time Training

Resumen

Support