ChatPaper.aiChatPaper

픽셀에서 단어로 — 대규모 네이티브 비전-언어 프리미티브를 향하여

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

October 16, 2025
저자: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu
cs.AI

초록

기존의 모듈형 Vision-Language Models(VLMs)에 대한 대안으로서, 네이티브 VLMs의 구조는 진화하는 모델 아키텍처와 훈련 패러다임에 의해 형성되며 부상하는 경쟁자로 등장했다. 그러나 두 가지 지속적인 문제가 그 광범위한 탐구와 보급에 그림자를 드리우고 있다: (-) 네이티브 VLMs를 모듈형 VLMs와 구분짓는 근본적인 제약은 무엇이며, 이러한 장벽을 어느 정도까지 극복할 수 있는가? (-) 네이티브 VLMs 연구를 더 접근 가능하고 민주화하여 해당 분야의 진전을 가속화할 수 있는 방법은 무엇인가? 본 논문에서는 이러한 도전 과제를 명확히 하고, 네이티브 VLMs 구축을 위한 지침 원칙을 제시한다. 구체적으로, 하나의 네이티브 VLM 기본 요소는 다음을 충족해야 한다: (i) 픽셀과 단어 표현을 공유된 의미 공간 내에서 효과적으로 정렬할 것, (ii) 이전에 분리된 시각 및 언어 모듈의 강점을 원활하게 통합할 것, (iii) 통합된 시각-언어 인코딩, 정렬 및 추론을 지원하는 다양한 교차 모달 특성을 내재적으로 구현할 것. 이에 따라, 우리는 첫 번째 원칙에서 출발하여 구축된 새로운 네이티브 VLMs 패밀리인 NEO를 출시한다. NEO는 다양한 실제 시나리오에서 최고 수준의 모듈형 VLMs와 경쟁할 수 있는 능력을 갖추고 있다. 단 3억 9천만 개의 이미지-텍스트 예제만으로도, NEO는 우리의 정교한 기본 요소로부터 제작된 밀집된 단일 모델 내에서 시각-언어 충돌을 완화하면서 처음부터 시각적 인식을 효율적으로 개발한다. 우리는 NEO를 확장 가능하고 강력한 네이티브 VLMs의 초석으로 위치시키며, 비용 효율적이고 확장 가능한 생태계를 조성하는 풍부한 재사용 가능한 구성 요소 세트와 함께 제공한다. 우리의 코드와 모델은 https://github.com/EvolvingLMMs-Lab/NEO에서 공개적으로 이용 가능하다.
English
The edifice of native Vision-Language Models (VLMs) has emerged as a rising contender to typical modular VLMs, shaped by evolving model architectures and training paradigms. Yet, two lingering clouds cast shadows over its widespread exploration and promotion: (-) What fundamental constraints set native VLMs apart from modular ones, and to what extent can these barriers be overcome? (-) How to make research in native VLMs more accessible and democratized, thereby accelerating progress in the field. In this paper, we clarify these challenges and outline guiding principles for constructing native VLMs. Specifically, one native VLM primitive should: (i) effectively align pixel and word representations within a shared semantic space; (ii) seamlessly integrate the strengths of formerly separate vision and language modules; (iii) inherently embody various cross-modal properties that support unified vision-language encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of native VLMs built from first principles, capable of rivaling top-tier modular counterparts across diverse real-world scenarios. With only 390M image-text examples, NEO efficiently develops visual perception from scratch while mitigating vision-language conflicts inside a dense and monolithic model crafted from our elaborate primitives. We position NEO as a cornerstone for scalable and powerful native VLMs, paired with a rich set of reusable components that foster a cost-effective and extensible ecosystem. Our code and models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.
PDF632October 17, 2025