ChatPaper.aiChatPaper

ピクセルから言葉へ――大規模なネイティブ視覚言語プリミティブに向けて

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

October 16, 2025
著者: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu
cs.AI

要旨

ネイティブな視覚言語モデル(VLMs)の構築は、進化するモデルアーキテクチャとトレーニングパラダイムによって形作られ、従来のモジュール型VLMsに対する新たな競争相手として台頭してきた。しかし、その広範な探求と普及には、二つの未解決の問題が影を落としている:(-)ネイティブVLMsをモジュール型と区別する根本的な制約は何か、そしてこれらの障壁をどの程度克服できるか?(-)ネイティブVLMsの研究をよりアクセスしやすく民主化し、それによってこの分野の進展を加速するにはどうすればよいか?本論文では、これらの課題を明確にし、ネイティブVLMsを構築するための指針を提示する。具体的には、一つのネイティブVLMプリミティブは、(i)共有された意味空間内でピクセルと単語の表現を効果的に整合させること、(ii)以前は分離されていた視覚と言語モジュールの強みをシームレスに統合すること、(iii)統一された視覚言語エンコーディング、整合、推論をサポートする様々なクロスモーダル特性を本質的に具備すること、を満たすべきである。そこで、我々は第一原理から構築された新たなネイティブVLMsファミリーであるNEOを立ち上げ、多様な実世界のシナリオにおいてトップクラスのモジュール型モデルと競合する能力を有する。わずか3億9000万の画像テキスト例を用いて、NEOは視覚知覚をゼロから効率的に発展させ、我々の精巧なプリミティブから構築された密で単一のモデル内での視覚言語の衝突を緩和する。我々はNEOを、スケーラブルで強力なネイティブVLMsの基盤として位置づけ、再利用可能な豊富なコンポーネントとともに、コスト効率が高く拡張可能なエコシステムを促進する。我々のコードとモデルは、https://github.com/EvolvingLMMs-Lab/NEO で公開されている。
English
The edifice of native Vision-Language Models (VLMs) has emerged as a rising contender to typical modular VLMs, shaped by evolving model architectures and training paradigms. Yet, two lingering clouds cast shadows over its widespread exploration and promotion: (-) What fundamental constraints set native VLMs apart from modular ones, and to what extent can these barriers be overcome? (-) How to make research in native VLMs more accessible and democratized, thereby accelerating progress in the field. In this paper, we clarify these challenges and outline guiding principles for constructing native VLMs. Specifically, one native VLM primitive should: (i) effectively align pixel and word representations within a shared semantic space; (ii) seamlessly integrate the strengths of formerly separate vision and language modules; (iii) inherently embody various cross-modal properties that support unified vision-language encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of native VLMs built from first principles, capable of rivaling top-tier modular counterparts across diverse real-world scenarios. With only 390M image-text examples, NEO efficiently develops visual perception from scratch while mitigating vision-language conflicts inside a dense and monolithic model crafted from our elaborate primitives. We position NEO as a cornerstone for scalable and powerful native VLMs, paired with a rich set of reusable components that foster a cost-effective and extensible ecosystem. Our code and models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.
PDF632October 17, 2025