ChatPaper.aiChatPaper

캄브리아-S: 비디오에서의 공간 초감지 기술을 향하여

Cambrian-S: Towards Spatial Supersensing in Video

November 6, 2025
저자: Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie
cs.AI

초록

우리는 진정한 다중모달 인텔리전스의 발전을 위해서는 반응형 과업 중심 시스템과 무차별적 장문맥 접근에서 벗어나 초감각(supersensing)이라는 더 넓은 패러다임으로의 전환이 필요하다고 주장한다. 우리는 공간적 초감각을 언어 중심 이해를 넘어선 네 단계로 정의한다: 의미적 지각(보이는 대상의 명명), 연속적 사건 인식(지속적 경험에 걸친 기억 유지), 암묵적 3차원 공간 인식(픽셀 너머 세계 추론), 예측적 세계 모델링(정보를 선별하고 체계화하는 내부 모델 생성). 현재 벤치마크는 주로 초기 단계만을 테스트하여 공간 인식의 포괄적 검증이 부족하고, 진정한 세계 모델링을 요구하는 방식으로 모델을 도전시키지 못한다. 공간적 초감각의 발전을 촉진하기 위해 우리는 이중 구성의 VSI-SUPER 벤치마크를 제시한다: VSR(장기간 시공간 기억)과 VSC(지속적 시공간 계수). 이러한 과업들은 무제한 장영상 입력을 요구하지만 무차별적 맥락 확장에는 취약하지 않다. 이후 우리는 VSI-590K 데이터를 구축하고 Cambrian-S 모델을 학습하여 일반 능력을 희생하지 않으면서 VSI-Bench에서 30% 절대적 성능 향상을 달성한다. 그러나 VSI-SUPER에서의 성능은 여전히 제한적이며, 이는 규모 확장만으로는 공간적 초감각이 충분히 달성되지 않음을 시사한다. 우리는 예측적 감지(predictive sensing)를 대안으로 제시하며, 자기지도 학습 기반 다음-잠재-프레임 예측기가 놀라움(예측 오차)을 통해 기억과 사건 분할을 주도하는 개념 검증 모델을 선보인다. 이 접근법은 VSI-SUPER에서 주요 상용 기준선을 크게 능가하며, 공간적 초감각이 단순한 인식이 아닌 경험의 예측, 선별, 체계화 능력을 필요로 함을 입증한다.
English
We argue that progress in true multimodal intelligence calls for a shift from reactive, task-driven systems and brute-force long context towards a broader paradigm of supersensing. We frame spatial supersensing as four stages beyond linguistic-only understanding: semantic perception (naming what is seen), streaming event cognition (maintaining memory across continuous experiences), implicit 3D spatial cognition (inferring the world behind pixels), and predictive world modeling (creating internal models that filter and organize information). Current benchmarks largely test only the early stages, offering narrow coverage of spatial cognition and rarely challenging models in ways that require true world modeling. To drive progress in spatial supersensing, we present VSI-SUPER, a two-part benchmark: VSR (long-horizon visual spatial recall) and VSC (continual visual spatial counting). These tasks require arbitrarily long video inputs yet are resistant to brute-force context expansion. We then test data scaling limits by curating VSI-590K and training Cambrian-S, achieving +30% absolute improvement on VSI-Bench without sacrificing general capabilities. Yet performance on VSI-SUPER remains limited, indicating that scale alone is insufficient for spatial supersensing. We propose predictive sensing as a path forward, presenting a proof-of-concept in which a self-supervised next-latent-frame predictor leverages surprise (prediction error) to drive memory and event segmentation. On VSI-SUPER, this approach substantially outperforms leading proprietary baselines, showing that spatial supersensing requires models that not only see but also anticipate, select, and organize experience.
PDF355December 2, 2025