OneVision-Encoder: Выравнивание разреженности по кодеку как фундаментальный принцип для мультимодального интеллекта
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
February 9, 2026
Авторы: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI
Аннотация
**Гипотеза.** Создание искусственного общего интеллекта, по своей сути, является проблемой сжатия. Эффективное сжатие требует резонанса: глубокое обучение лучше всего масштабируется, когда его архитектура соответствует фундаментальной структуре данных. Таковы основные принципы. Однако современные архитектуры для компьютерного зрения отошли от этих истин: визуальные сигналы обладают высокой избыточностью, в то время как дискриминативная информация, «сюрприз», разрежена. Современные модели равномерно обрабатывают плотные пиксельные сетки, тратя огромные вычислительные ресурсы на статичный фон вместо фокусировки на предсказательных остатках, которые определяют движение и смысл. Мы утверждаем, что для решения задачи визуального понимания необходимо согласовать наши архитектуры с информационно-теоретическими принципами видео, то есть с принципами кодеков.
**Метод.** OneVision-Encoder кодирует видео, сжимая предсказуемую визуальную структуру в семантическое значение. Благодаря использованию «Патчификации по образцу Кодеков» (Codec Patchification), OV-Encoder отказывается от равномерных вычислений, чтобы фокусироваться исключительно на 3.1%-25% регионов, богатых энтропией сигнала. Для объединения пространственного и временного анализа в условиях нерегулярного расположения токенов, OneVision-Encoder использует общую 3D RoPE и обучается с задачей крупномасштабной кластерной дискриминации более чем по миллиону семантических концептов, совместно захватывая перманентность объектов и динамику движения.
**Доказательства.** Результаты подтверждают нашу ключевую гипотезу: эффективность и точность — не компромисс; они положительно коррелируют. При интеграции в LLM, наша модель стабильно превосходит сильные базовые модели зрения, такие как Qwen3-ViT и SigLIP2, на 16 тестах для оценки понимания изображений, видео и документов, несмотря на использование существенно меньшего количества визуальных токенов и данных для предварительного обучения. Примечательно, что в задачах понимания видео OV-Encoder демонстрирует среднее улучшение на 4.1% по сравнению с Qwen3-ViT. Согласованное с кодеком, разреженное на уровне патчей представление является фундаментальным принципом, позволяющим OV-Encoder выступать в качестве масштабируемого движка для визуальных моделей-универсалов следующего поколения.
English
Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs.
Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics.
Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.