OneVision-Encoder: Codec-Uitgelijnde Sparsheid als een Fundamenteel Principe voor Multimodale Intelligentie
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
February 9, 2026
Auteurs: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI
Samenvatting
Hypothese. Kunstmatige algemene intelligentie is in de kern een compressieprobleem. Effectieve compressie vereist resonantie: deep learning schaalt het beste wanneer de architectuur ervan overeenkomt met de fundamentele structuur van de data. Dit zijn de fundamentele principes. Toch zijn moderne visie-architecturen afgedwaald van deze waarheden: visuele signalen zijn zeer redundant, terwijl discriminerende informatie, de verrassing, spaarzaam is. Huidige modellen verwerken uniform dichte pixelroosters, verspillen enorme rekenkracht aan statische achtergronden in plaats van zich te richten op de voorspellende residuen die beweging en betekenis definiëren. Wij stellen dat om visueel begrip op te lossen, onze architecturen moeten worden afgestemd op de informatie-theoretische principes van video, namelijk Codecs.
Methode. OneVision-Encoder codeert video door voorspellende visuele structuur te comprimeren tot semantische betekenis. Door Codec Patchification toe te passen, verlaat OV-Encoder uniforme berekening om zich uitsluitend te richten op de 3,1%-25% van de regio's die rijk zijn aan signaalentropie. Om ruimtelijke en temporele redenering te verenigen onder onregelmatige token-indelingen, gebruikt OneVision-Encoder een gedeelde 3D RoPE en wordt getraind met een grootschalig clusterdiscriminatiedoel over meer dan een miljoen semantische concepten, waarbij objectpermanentie en bewegingsdynamiek gezamenlijk worden vastgelegd.
Bewijs. De resultaten valideren onze kernhypothese: efficiëntie en nauwkeurigheid zijn geen afruil; ze zijn positief gecorreleerd. Wanneer geïntegreerd in een LLM, presteert het consistent beter dan sterke visie-backbones zoals Qwen3-ViT en SigLIP2 op 16 benchmarks voor beeld-, video- en documentbegrip, ondanks het gebruik van aanzienlijk minder visuele tokens en pretrainingsdata. Opmerkelijk is dat OV-Encoder voor videobegriptaken een gemiddelde verbetering van 4,1% behaalt ten opzichte van Qwen3-ViT. Codec-afgestemde, patch-level sparseiteit is een fundamenteel principe, dat OV-Encoder mogelijk maakt als een schaalbare engine voor de volgende generatie visuele generalisten.
English
Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs.
Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics.
Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.