ChatPaper.aiChatPaper

OneVision-Encoder: 멀티모달 인텔리전스의 기초 원리로서의 코덱 정렬 희소성

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

February 9, 2026
저자: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI

초록

가설. 범용 인공지능은 그 본질에서 압축 문제이다. 효과적인 압축은 공명을 요구한다. 즉, 딥러닝은 그 구조가 데이터의 근본적 구조와 조화를 이룰 때 가장 효과적으로 확장된다. 이것이 근본 원리다. 그러나 현대 비전 아키텍처는 이러한 진리에서 멀어졌다. 시각 신호는 매우 중복적이며, 판별 정보, 즉 '놀라움'은 희소하다. 현재 모델은 조밀한 픽셀 그리드를 균일하게 처리하여, 움직임과 의미를 정의하는 예측 잔차에 집중하기보다 정적 배경에 막대한 계산 자원을 낭비한다. 우리는 시각 이해를 해결하려면 비디오의 정보 이론적 원리, 즉 코덱에 맞춰 아키텍처를 재정렬해야 한다고 주장한다. 방법. OneVision-Encoder는 예측적 시각 구조를 의미론적 의미로 압축하여 비디오를 인코딩한다. Codec Patchification을 도입함으로써, OV-Encoder는 균일한 계산을 포기하고 신호 엔트로피가 풍부한 영역(3.1%~25%)에만 집중한다. 불규칙한 토큰 레이아웃 아래에서 공간 및 시간 추론을 통합하기 위해 OV-Encoder는 공유 3D RoPE를 사용하며, 100만 개 이상의 의미론적 개념에 대한 대규모 클러스터 판별 목표로 훈련되어 객체 불변성과 운동 역학을 함께 포착한다. 증거. 결과는 우리의 핵심 가설을 입증한다. 효율성과 정확도는 상충 관계가 아니라 양의 상관관계에 있다. LLM에 통합되었을 때, 훨씬 적은 시각 토큰과 사전 훈련 데이터를 사용함에도 불구하고, 이미지, 비디오, 문서 이해 벤치마크 16개 항목에서 Qwen3-ViT 및 SigLIP2와 같은 강력한 비전 백본을 꾸준히 능가한다. 특히 비디오 이해 과제에서 OV-Encoder는 Qwen3-ViT 대비 평균 4.1%의 성능 향상을 달성했다. 코덱에 정렬된 패치 수준 희소성은 근본 원리로서, OV-Encoder를 차세대 범용 시각 엔진으로 확장 가능하게 만드는 기반이 된다.
English
Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs. Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics. Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.
PDF403February 17, 2026