Spatial-TTT: Intelligenza Spaziale Basata su Visione in Streaming con Addestramento al Momento del Test

Abstract

Gli esseri umani percepiscono e comprendono gli spazi del mondo reale attraverso un flusso di osservazioni visive. Pertanto, la capacità di mantenere e aggiornare in modo continuativo le evidenze spaziali da flussi video potenzialmente illimitati è essenziale per l'intelligenza spaziale. La sfida principale non risiede semplicemente in finestre contestuali più lunghe, ma in come le informazioni spaziali vengono selezionate, organizzate e mantenute nel tempo. In questo articolo, proponiamo Spatial-TTT, un approccio all'intelligenza spaziale basata su visione in streaming mediante addestramento al momento del test (TTT), che adatta un sottoinsieme di parametri (pesi rapidi) per catturare e organizzare le evidenze spaziali in video di scene a lungo orizzonte. Nello specifico, progettiamo un'architettura ibrida e adottiamo aggiornamenti a blocchi ampi in parallelo con meccanismi di attenzione a finestra scorrevole per un'efficiente elaborazione di video spaziali. Per promuovere ulteriormente la consapevolezza spaziale, introduciamo un meccanismo predittivo spaziale applicato agli strati TTT con convoluzione spaziotemporale 3D, che incentiva il modello a catturare corrispondenze geometriche e continuità temporale tra i fotogrammi. Oltre alla progettazione architetturale, costruiamo un dataset con descrizioni spaziali 3D dense, che guida il modello ad aggiornare i propri pesi rapidi per memorizzare e organizzare i segnali spaziali globali 3D in modo strutturato. Esperimenti estensivi dimostrano che Spatial-TTT migliora la comprensione spaziale a lungo orizzonte e raggiunge prestazioni allo stato dell'arte su benchmark di spazialità video. Pagina del progetto: https://liuff19.github.io/Spatial-TTT.

English

Humans perceive and understand real-world spaces through a stream of visual observations. Therefore, the ability to streamingly maintain and update spatial evidence from potentially unbounded video streams is essential for spatial intelligence. The core challenge is not simply longer context windows but how spatial information is selected, organized, and retained over time. In this paper, we propose Spatial-TTT towards streaming visual-based spatial intelligence with test-time training (TTT), which adapts a subset of parameters (fast weights) to capture and organize spatial evidence over long-horizon scene videos. Specifically, we design a hybrid architecture and adopt large-chunk updates parallel with sliding-window attention for efficient spatial video processing. To further promote spatial awareness, we introduce a spatial-predictive mechanism applied to TTT layers with 3D spatiotemporal convolution, which encourages the model to capture geometric correspondence and temporal continuity across frames. Beyond architecture design, we construct a dataset with dense 3D spatial descriptions, which guides the model to update its fast weights to memorize and organize global 3D spatial signals in a structured manner. Extensive experiments demonstrate that Spatial-TTT improves long-horizon spatial understanding and achieves state-of-the-art performance on video spatial benchmarks. Project page: https://liuff19.github.io/Spatial-TTT.

Spatial-TTT: Intelligenza Spaziale Basata su Visione in Streaming con Addestramento al Momento del Test

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Abstract

Support