OneVision-Encoder : L'alignement codec-sparsité comme principe fondateur de l'intelligence multimodale
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
February 9, 2026
Auteurs: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI
Résumé
Hypothèse. L'intelligence artificielle générale est, fondamentalement, un problème de compression. Une compression efficace exige une résonance : l'apprentissage profond est d'autant plus performant que son architecture s'aligne sur la structure fondamentale des données. Tels sont les principes fondamentaux. Pourtant, les architectures visuelles modernes se sont éloignées de ces vérités : les signaux visuels sont hautement redondants, tandis que l'information discriminante, la surprise, est sparse. Les modèles actuels traitent de manière uniforme des grilles denses de pixels, gaspillant d'immenses ressources de calcul sur des arrière-plans statiques plutôt que de se concentrer sur les résidus prédictifs qui définissent le mouvement et la signification. Nous soutenons que pour résoudre la compréhension visuelle, nous devons aligner nos architectures sur les principes informationnels de la vidéo, à savoir les Codecs.
Méthode. OneVision-Encoder encode la vidéo en compressant la structure visuelle prédictive en un sens sémantique. En adoptant la Patchification de Codec, OV-Encoder abandonne le calcul uniforme pour se concentrer exclusivement sur les 3,1 % à 25 % des régions riches en entropie du signal. Pour unifier le raisonnement spatial et temporel sous des dispositions de tokens irrégulières, OneVision-Encoder utilise un RoPE 3D partagé et est entraîné avec un objectif de discrimination par clusters à grande échelle sur plus d'un million de concepts sémantiques, capturant conjointement la permanence des objets et la dynamique du mouvement.
Preuve. Les résultats valident notre hypothèse centrale : l'efficacité et la précision ne sont pas un compromis ; elles sont positivement corrélées. Intégré dans un LLM, il surpasse systématiquement des backbones visuels solides tels que Qwen3-ViT et SigLIP2 sur 16 benchmarks de compréhension d'images, de vidéos et de documents, et ce bien qu'il utilise sensiblement moins de tokens visuels et de données de pré-entraînement. Notamment, sur les tâches de compréhension vidéo, OV-Encoder obtient une amélioration moyenne de 4,1 % par rapport à Qwen3-ViT. La sparsité au niveau des patches, alignée sur les codecs, est un principe fondateur, permettant à OV-Encoder d'agir comme un moteur évolutif pour la prochaine génération d'agents généralistes visuels.
English
Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs.
Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics.
Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.