Des pixels aux mots — Vers des primitives natives vision-langage à grande échelle
From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
October 16, 2025
papers.authors: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu
cs.AI
papers.abstract
L'édifice des modèles de vision-langage natifs (VLMs) s'est imposé comme un concurrent croissant face aux VLMs modulaires classiques, façonnés par des architectures de modèles et des paradigmes d'entraînement en évolution. Cependant, deux nuages persistants jettent une ombre sur leur exploration et leur promotion généralisées : (-) Quelles contraintes fondamentales distinguent les VLMs natifs des modèles modulaires, et dans quelle mesure ces barrières peuvent-elles être surmontées ? (-) Comment rendre la recherche sur les VLMs natifs plus accessible et démocratisée, accélérant ainsi les progrès dans ce domaine. Dans cet article, nous clarifions ces défis et esquissons des principes directeurs pour la construction de VLMs natifs. Plus précisément, un primitif de VLM natif devrait : (i) aligner efficacement les représentations de pixels et de mots dans un espace sémantique partagé ; (ii) intégrer de manière fluide les forces des modules de vision et de langage autrefois séparés ; (iii) incarner intrinsèquement diverses propriétés intermodales qui soutiennent l'encodage, l'alignement et le raisonnement unifiés entre vision et langage. Ainsi, nous lançons NEO, une nouvelle famille de VLMs natifs construits à partir de principes fondamentaux, capables de rivaliser avec les meilleurs modèles modulaires dans divers scénarios réels. Avec seulement 390 millions d'exemples image-texte, NEO développe efficacement la perception visuelle à partir de zéro tout en atténuant les conflits vision-langage au sein d'un modèle dense et monolithique conçu à partir de nos primitifs élaborés. Nous positionnons NEO comme une pierre angulaire pour des VLMs natifs évolutifs et puissants, accompagnés d'un ensemble riche de composants réutilisables qui favorisent un écosystème rentable et extensible. Notre code et nos modèles sont disponibles publiquement à l'adresse : https://github.com/EvolvingLMMs-Lab/NEO.
English
The edifice of native Vision-Language Models (VLMs) has emerged as a rising
contender to typical modular VLMs, shaped by evolving model architectures and
training paradigms. Yet, two lingering clouds cast shadows over its widespread
exploration and promotion: (-) What fundamental constraints set native VLMs
apart from modular ones, and to what extent can these barriers be overcome? (-)
How to make research in native VLMs more accessible and democratized, thereby
accelerating progress in the field. In this paper, we clarify these challenges
and outline guiding principles for constructing native VLMs. Specifically, one
native VLM primitive should: (i) effectively align pixel and word
representations within a shared semantic space; (ii) seamlessly integrate the
strengths of formerly separate vision and language modules; (iii) inherently
embody various cross-modal properties that support unified vision-language
encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of
native VLMs built from first principles, capable of rivaling top-tier modular
counterparts across diverse real-world scenarios. With only 390M image-text
examples, NEO efficiently develops visual perception from scratch while
mitigating vision-language conflicts inside a dense and monolithic model
crafted from our elaborate primitives. We position NEO as a cornerstone for
scalable and powerful native VLMs, paired with a rich set of reusable
components that foster a cost-effective and extensible ecosystem. Our code and
models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.