ChatPaper.aiChatPaper

Spatial-TTT: テストタイムトレーニングによるストリーミング視覚空間知能

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

March 12, 2026
著者: Fangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan
cs.AI

要旨

人間は視覚的観察の連続的な流れを通じて現実世界の空間を知覚・理解する。したがって、潜在的に無限のビデオストリームから空間的証拠を連続的に維持・更新する能力は、空間知能にとって不可欠である。核心的な課題は、単なる長いコンテキストウィンドウではなく、空間情報が時間とともにどのように選択・整理・保持されるかにある。本論文では、テストタイムトレーニング(TTT)を用いたストリーミング視覚ベースの空間知能を目指すSpatial-TTTを提案する。本手法は、パラメータの一部(高速重み)を適応させることで、長期間にわたるシーンビデオから空間的証拠を捕捉・整理する。具体的には、ハイブリッドアーキテクチャを設計し、大規模チャンク更新をスライディングウィンドウアテンションと並行して実行することで、効率的な空間的ビデオ処理を実現する。空間認識をさらに促進するため、3D時空間畳み込みを適用したTTT層に空間予測メカニズムを導入し、フレーム間の幾何学的対応関係と時間的連続性の捕捉を促す。アーキテクチャ設計に加えて、密な3D空間記述を含むデータセットを構築し、モデルが高速重みを更新して構造化された方法で大域的な3D空間信号を記憶・整理するよう導く。大規模な実験により、Spatial-TTTが長期的な空間理解を改善し、ビデオ空間ベンチマークにおいて最先端の性能を達成することを実証する。プロジェクトページ: https://liuff19.github.io/Spatial-TTT。
English
Humans perceive and understand real-world spaces through a stream of visual observations. Therefore, the ability to streamingly maintain and update spatial evidence from potentially unbounded video streams is essential for spatial intelligence. The core challenge is not simply longer context windows but how spatial information is selected, organized, and retained over time. In this paper, we propose Spatial-TTT towards streaming visual-based spatial intelligence with test-time training (TTT), which adapts a subset of parameters (fast weights) to capture and organize spatial evidence over long-horizon scene videos. Specifically, we design a hybrid architecture and adopt large-chunk updates parallel with sliding-window attention for efficient spatial video processing. To further promote spatial awareness, we introduce a spatial-predictive mechanism applied to TTT layers with 3D spatiotemporal convolution, which encourages the model to capture geometric correspondence and temporal continuity across frames. Beyond architecture design, we construct a dataset with dense 3D spatial descriptions, which guides the model to update its fast weights to memorize and organize global 3D spatial signals in a structured manner. Extensive experiments demonstrate that Spatial-TTT improves long-horizon spatial understanding and achieves state-of-the-art performance on video spatial benchmarks. Project page: https://liuff19.github.io/Spatial-TTT.
PDF692March 15, 2026