공간-TTT: 실시간 시각 기반 공간 지능을 위한 테스트 타임 학습
Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training
March 12, 2026
저자: Fangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan
cs.AI
초록
인간은 시각적 관찰의 연속을 통해 현실 세계의 공간을 인지하고 이해합니다. 따라서 잠재적으로 무한한 비디오 스트림에서 공간 증거를 지속적으로 유지하고 업데이트하는 능력은 공간 지능에 필수적입니다. 핵심 과제는 단순히 더 긴 컨텍스트 창이 아니라 시간에 따라 공간 정보가 어떻게 선택, 조직, 유지되는가에 있습니다. 본 논문에서는 테스트 타임 학습(TTT)을 활용한 스트리밍 시각 기반 공간 지능을 위한 Spatial-TTT를 제안합니다. 이는 매개변수의 일부(패스트 웨이트)를 적응시켜 장기간의 장면 비디오에서 공간 증거를 포착하고 조직합니다. 구체적으로, 효율적인 공간 비디오 처리를 위해 하이브리드 아키텍처를 설계하고 슬라이딩 윈도우 어텐션과 병렬로 대용량 청크 업데이트를 채택합니다. 공간 인식을 더욱 촉진하기 위해 3D 시공간 컨볼루션을 적용한 TTT 레이어에 공간 예측 메커니즘을 도입하여 프레임 간 기하학적 일치성과 시간적 연속성을 포착하도록 유도합니다. 아키텍처 설계를 넘어, 조밀한 3D 공간 설명으로 구성된 데이터셋을 구축하여 모델이 패스트 웨이트를 업데이트하여 전역 3D 공간 신호를 구조화된 방식으로 기억하고 조직하도록 안내합니다. 폭넓은 실험을 통해 Spatial-TTT가 장기적 공간 이해를 개선하고 비디오 공간 벤치마크에서 최첨단 성능을 달성함을 입증합니다. 프로젝트 페이지: https://liuff19.github.io/Spatial-TTT.
English
Humans perceive and understand real-world spaces through a stream of visual observations. Therefore, the ability to streamingly maintain and update spatial evidence from potentially unbounded video streams is essential for spatial intelligence. The core challenge is not simply longer context windows but how spatial information is selected, organized, and retained over time. In this paper, we propose Spatial-TTT towards streaming visual-based spatial intelligence with test-time training (TTT), which adapts a subset of parameters (fast weights) to capture and organize spatial evidence over long-horizon scene videos. Specifically, we design a hybrid architecture and adopt large-chunk updates parallel with sliding-window attention for efficient spatial video processing. To further promote spatial awareness, we introduce a spatial-predictive mechanism applied to TTT layers with 3D spatiotemporal convolution, which encourages the model to capture geometric correspondence and temporal continuity across frames. Beyond architecture design, we construct a dataset with dense 3D spatial descriptions, which guides the model to update its fast weights to memorize and organize global 3D spatial signals in a structured manner. Extensive experiments demonstrate that Spatial-TTT improves long-horizon spatial understanding and achieves state-of-the-art performance on video spatial benchmarks. Project page: https://liuff19.github.io/Spatial-TTT.