Spatial-TTT : Intelligence spatiale basée sur le flux visuel avec apprentissage au moment du test

Résumé

Les humains perçoivent et comprennent les espaces du monde réel à travers un flux d’observations visuelles. Ainsi, la capacité à maintenir et mettre à jour de manière continue les preuves spatiales à partir de flux vidéo potentiellement illimités est essentielle pour l’intelligence spatiale. Le principal défi ne réside pas simplement dans l’extension des fenêtres de contexte, mais dans la manière dont l’information spatiale est sélectionnée, organisée et retenue dans le temps. Dans cet article, nous proposons Spatial-TTT, une approche visant une intelligence spatiale basée sur la vision en flux continu via l’apprentissage au moment du test (TTT), qui adapte un sous-ensemble de paramètres (poids rapides) pour capturer et organiser les preuves spatiales sur de longues séquences vidéo. Plus précisément, nous concevons une architecture hybride et adoptons des mises à jour par blocs étendus parallèlement à une attention par fenêtre glissante pour un traitement efficace des vidéos spatiales. Pour renforcer davantage la conscience spatiale, nous introduisons un mécanisme de prédiction spatiale appliqué aux couches TTT avec convolution spatiotemporelle 3D, encourageant le modèle à capturer les correspondances géométriques et la continuité temporelle entre les images. Au-delà de la conception architecturale, nous construisons un jeu de données avec des descriptions spatiales 3D denses, qui guide le modèle pour mettre à jour ses poids rapides afin de mémoriser et organiser les signaux spatiaux 3D globaux de manière structurée. Des expériences approfondies démontrent que Spatial-TTT améliore la compréhension spatiale à long terme et obtient des performances de pointe sur les benchmarks spatiaux vidéo. Page du projet : https://liuff19.github.io/Spatial-TTT.

English

Humans perceive and understand real-world spaces through a stream of visual observations. Therefore, the ability to streamingly maintain and update spatial evidence from potentially unbounded video streams is essential for spatial intelligence. The core challenge is not simply longer context windows but how spatial information is selected, organized, and retained over time. In this paper, we propose Spatial-TTT towards streaming visual-based spatial intelligence with test-time training (TTT), which adapts a subset of parameters (fast weights) to capture and organize spatial evidence over long-horizon scene videos. Specifically, we design a hybrid architecture and adopt large-chunk updates parallel with sliding-window attention for efficient spatial video processing. To further promote spatial awareness, we introduce a spatial-predictive mechanism applied to TTT layers with 3D spatiotemporal convolution, which encourages the model to capture geometric correspondence and temporal continuity across frames. Beyond architecture design, we construct a dataset with dense 3D spatial descriptions, which guides the model to update its fast weights to memorize and organize global 3D spatial signals in a structured manner. Extensive experiments demonstrate that Spatial-TTT improves long-horizon spatial understanding and achieves state-of-the-art performance on video spatial benchmarks. Project page: https://liuff19.github.io/Spatial-TTT.

Spatial-TTT : Intelligence spatiale basée sur le flux visuel avec apprentissage au moment du test

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Résumé

Support