OneVision-Encoder: マルチモーダル知能の基盤原理としてのコーデック整合性スパース性
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
February 9, 2026
著者: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI
要旨
仮説。人工汎用知能の本質は、圧縮問題である。効果的な圧縮には共鳴が必要である:深層学習は、そのアーキテクチャがデータの基本構造と整合したときに最高のスケーリングを発揮する。これらが基本原理である。しかし、現代の視覚アーキテクチャはこれらの真実から逸脱している:視覚信号は高度に冗長である一方、識別情報、すなわち「驚き」は疎である。現在のモデルは密なピクセルグリッドを均一に処理し、動きと意味を定義する予測残差に集中せず、静的な背景に膨大な計算を浪費している。我々は、視覚理解を解決するためには、アーキテクチャをビデオの情報理論的原則、すなわちコーデックに整合させなければならないと主張する。
手法。OneVision-Encoderは、予測的視覚構造を意味に圧縮することでビデオを符号化する。Codec Patchificationを採用することで、OV-Encoderは均一な計算を放棄し、信号エントロピーが豊富な領域(3.1%〜25%)のみに専念する。不規則なトークンレイアウトの下で空間的・時間的推論を統一するため、OneVision-Encoderは共有3D RoPEを採用し、100万を超える意味概念に対する大規模クラスタ識別目標で学習され、対象の永続性と運動ダイナミクスを共同で捕捉する。
実証結果。結果は我々の核心的な仮説を実証する:効率と精度はトレードオフではなく、正の相関にある。LLMに統合された場合、視覚トークン数と事前学習データ量を大幅に削減しているにも関わらず、Qwen3-ViTやSigLIP2のような強力な視覚バックボーンを、16の画像、ビデオ、文書理解ベンチマークで一貫して上回る。特に、ビデオ理解タスクでは、OV-EncoderはQwen3-ViTに対して平均4.1%の改善を達成する。コーデック整合的なパッチレベルの疎性は基本原理であり、次世代視覚汎化モデルのためのスケーラブルなエンジンとしてのOV-Encoderを可能にする。
English
Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs.
Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics.
Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.