Spatial-TTT: Inteligencia Espacial Basada en Flujo Visual con Entrenamiento en Tiempo de Prueba

Resumen

Los seres humanos perciben y comprenden los espacios del mundo real a través de un flujo continuo de observaciones visuales. Por lo tanto, la capacidad de mantener y actualizar continuamente evidencia espacial a partir de flujos de video potencialmente ilimitados es esencial para la inteligencia espacial. El desafío central no radica simplemente en ventanas de contexto más largas, sino en cómo la información espacial es seleccionada, organizada y retenida a lo largo del tiempo. En este artículo, proponemos Spatial-TTT para una inteligencia espacial basada en visión en flujo continuo mediante entrenamiento en tiempo de prueba (TTT), el cual adapta un subconjunto de parámetros (pesos rápidos) para capturar y organizar evidencia espacial en videos de escenas de largo horizonte. Específicamente, diseñamos una arquitectura híbrida y adoptamos actualizaciones por bloques grandes en paralelo con atención de ventana deslizante para un procesamiento eficiente de video espacial. Para promover aún más la conciencia espacial, introducimos un mecanismo predictivo-espacial aplicado a las capas TTT con convolución espaciotemporal 3D, lo que incentiva al modelo a capturar correspondencia geométrica y continuidad temporal entre fotogramas. Más allá del diseño arquitectónico, construimos un conjunto de datos con descripciones espaciales 3D densas, que guía al modelo para actualizar sus pesos rápidos y memorizar y organizar las señales espaciales 3D globales de manera estructurada. Experimentos exhaustivos demuestran que Spatial-TTT mejora la comprensión espacial de largo horizonte y logra un rendimiento de vanguardia en benchmarks de video espacial. Página del proyecto: https://liuff19.github.io/Spatial-TTT.

English

Humans perceive and understand real-world spaces through a stream of visual observations. Therefore, the ability to streamingly maintain and update spatial evidence from potentially unbounded video streams is essential for spatial intelligence. The core challenge is not simply longer context windows but how spatial information is selected, organized, and retained over time. In this paper, we propose Spatial-TTT towards streaming visual-based spatial intelligence with test-time training (TTT), which adapts a subset of parameters (fast weights) to capture and organize spatial evidence over long-horizon scene videos. Specifically, we design a hybrid architecture and adopt large-chunk updates parallel with sliding-window attention for efficient spatial video processing. To further promote spatial awareness, we introduce a spatial-predictive mechanism applied to TTT layers with 3D spatiotemporal convolution, which encourages the model to capture geometric correspondence and temporal continuity across frames. Beyond architecture design, we construct a dataset with dense 3D spatial descriptions, which guides the model to update its fast weights to memorize and organize global 3D spatial signals in a structured manner. Extensive experiments demonstrate that Spatial-TTT improves long-horizon spatial understanding and achieves state-of-the-art performance on video spatial benchmarks. Project page: https://liuff19.github.io/Spatial-TTT.

Spatial-TTT: Inteligencia Espacial Basada en Flujo Visual con Entrenamiento en Tiempo de Prueba

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Resumen

Support