ChatPaper.aiChatPaper

OneVision-Encoder: La Sparsità Allineata al Codec come Principio Fondante per l'Intelligenza Multimodale

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

February 9, 2026
Autori: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI

Abstract

Ipotesi. L'intelligenza artificiale generale è, nella sua essenza, un problema di compressione. Una compressione efficace richiede risonanza: l'apprendimento profondo scala meglio quando la sua architettura è allineata con la struttura fondamentale dei dati. Questi sono i principi fondamentali. Tuttavia, le moderne architetture per la visione si sono allontanate da queste verità: i segnali visivi sono altamente ridondanti, mentre l'informazione discriminativa, la "sorpresa", è sparsa. I modelli attuali processano uniformemente griglie dense di pixel, sprecando enormi risorse computazionali su sfondi statici invece di concentrarsi sui residui predittivi che definiscono il movimento e il significato. Sosteniamo che per risolvere la comprensione visiva, dobbiamo allineare le nostre architetture con i principi dell'informazione teorica del video, ovvero i Codec. Metodo. OneVision-Encoder codifica i video comprimendo la struttura visiva predittiva in significato semantico. Adottando la Codec Patchification, OV-Encoder abbandona il calcolo uniforme per concentrarsi esclusivamente sul 3,1%-25% delle regioni ricche di entropia del segnale. Per unificare il ragionamento spaziale e temporale sotto layout di token irregolari, OneVision-Encoder impiega un 3D RoPE condiviso ed è addestrato con un obiettivo su larga scala di discriminazione per cluster su oltre un milione di concetti semantici, catturando congiuntamente la permanenza degli oggetti e la dinamica del movimento. Evidenze. I risultati convalidano la nostra ipotesi centrale: efficienza e accuratezza non sono un compromesso; sono positivamente correlate. Quando integrato in un LLM, supera costantemente backbone visivi robusti come Qwen3-ViT e SigLIP2 in 16 benchmark di comprensione di immagini, video e documenti, nonostante utilizzi un numero sostanzialmente inferiore di token visivi e dati di pre-addestramento. Notevolmente, nelle attività di comprensione video, OV-Encoder raggiunge un miglioramento medio del 4,1% rispetto a Qwen3-ViT. La sparsità a livello di patch, allineata ai codec, è un principio fondamentale, che abilita OV-Encoder come motore scalabile per i generalisti visivi di prossima generazione.
English
Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs. Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics. Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.
PDF524March 28, 2026