ChatPaper.aiChatPaper

カンブリアン-S:映像における空間的超感覚知覚に向けて

Cambrian-S: Towards Spatial Supersensing in Video

November 6, 2025
著者: Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie
cs.AI

要旨

真のマルチモーダル知能の進歩には、反応的なタスク駆動型システムや力任せの長文脈処理から、より広範な「超感覚(supersensing)」パラダイムへの転換が必要であると我々は主張する。空間的超感覚を、言語のみの理解を超えた4つの段階として定義する:意味的知覚(視覚情報の名称特定)、連続的イベント認知(持続的経験にわたる記憶の維持)、暗黙的3D空間認知(ピクセル背後にある世界の推論)、予測的世界モデリング(情報を選別・整理する内的モデルの構築)。現在のベンチマークは初期段階のみをテストすることが多く、空間認知の範囲が狭く、真の世界モデリングを必要とする方法でモデルに挑戦することは稀である。空間的超感覚の進展を促すため、2部構成のベンチマークVSI-SUPERを提案する:VSR(長期的視覚的空間記憶)とVSC(連続的視覚的空間計数)。これらの課題は任意に長い動画入力を必要としながらも、力任せの文脈拡張に耐性を持つ。次に、VSI-590Kを精選しCambrian-Sを訓練することでデータ拡大の限界を検証し、一般能力を損なうことなくVSI-Benchで30%以上の絶対的改善を達成した。しかしVSI-SUPERでの性能は限定的であり、規模の拡大だけでは空間的超感覚が不十分であることを示唆する。将来の方向性として予測的センシングを提案し、自己教師あり次潜在フレーム予測器が驚き(予測誤差)を利用して記憶とイベント分割を駆動する概念実証を示す。このアプローチはVSI-SUPERにおいて主要なプロプライエタリベースラインを大幅に上回り、空間的超感覚には単なる「見る」能力だけでなく、経験を予測し、選択し、組織化するモデルが必要であることを実証する。
English
We argue that progress in true multimodal intelligence calls for a shift from reactive, task-driven systems and brute-force long context towards a broader paradigm of supersensing. We frame spatial supersensing as four stages beyond linguistic-only understanding: semantic perception (naming what is seen), streaming event cognition (maintaining memory across continuous experiences), implicit 3D spatial cognition (inferring the world behind pixels), and predictive world modeling (creating internal models that filter and organize information). Current benchmarks largely test only the early stages, offering narrow coverage of spatial cognition and rarely challenging models in ways that require true world modeling. To drive progress in spatial supersensing, we present VSI-SUPER, a two-part benchmark: VSR (long-horizon visual spatial recall) and VSC (continual visual spatial counting). These tasks require arbitrarily long video inputs yet are resistant to brute-force context expansion. We then test data scaling limits by curating VSI-590K and training Cambrian-S, achieving +30% absolute improvement on VSI-Bench without sacrificing general capabilities. Yet performance on VSI-SUPER remains limited, indicating that scale alone is insufficient for spatial supersensing. We propose predictive sensing as a path forward, presenting a proof-of-concept in which a self-supervised next-latent-frame predictor leverages surprise (prediction error) to drive memory and event segmentation. On VSI-SUPER, this approach substantially outperforms leading proprietary baselines, showing that spatial supersensing requires models that not only see but also anticipate, select, and organize experience.
PDF355December 2, 2025