Von Pixeln zu Worten – Auf dem Weg zu nativen Vision-Sprache-Primitiven im großen Maßstab
From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
October 16, 2025
papers.authors: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu
cs.AI
papers.abstract
Das Gebäude nativer Vision-Language-Modelle (VLMs) hat sich als aufstrebender Konkurrent zu typischen modularen VLMs herausgebildet, geprägt durch sich entwickelnde Modellarchitekturen und Trainingsparadigmen. Dennoch werfen zwei anhaltende Wolken Schatten auf ihre weit verbreitete Erforschung und Förderung: (-) Welche grundlegenden Einschränkungen unterscheiden native VLMs von modularen, und in welchem Umfang können diese Barrieren überwunden werden? (-) Wie kann die Forschung in nativen VLMs zugänglicher und demokratisiert werden, um so den Fortschritt in diesem Bereich zu beschleunigen? In diesem Artikel klären wir diese Herausforderungen und skizzieren Leitprinzipien für den Aufbau nativer VLMs. Konkret sollte ein primitives natives VLM: (i) effektiv Pixel- und Wortrepräsentationen in einem gemeinsamen semantischen Raum ausrichten; (ii) nahtlos die Stärken ehemals separater Vision- und Sprachmodule integrieren; (iii) intrinsisch verschiedene cross-modale Eigenschaften verkörpern, die einheitliche Vision-Language-Kodierung, Ausrichtung und Schlussfolgerung unterstützen. Daher lancieren wir NEO, eine neuartige Familie nativer VLMs, die auf ersten Prinzipien basiert und in der Lage ist, in verschiedenen realen Szenarien mit erstklassigen modularen Gegenstücken zu konkurrieren. Mit nur 390M Bild-Text-Beispielen entwickelt NEO effizient visuelle Wahrnehmung von Grund auf, während es Vision-Language-Konflikte innerhalb eines dichten und monolithischen Modells, das aus unseren ausgefeilten Primitiven besteht, mildert. Wir positionieren NEO als Eckpfeiler für skalierbare und leistungsstarke native VLMs, gepaart mit einer reichhaltigen Sammlung wiederverwendbarer Komponenten, die ein kosteneffektives und erweiterbares Ökosystem fördern. Unser Code und unsere Modelle sind öffentlich verfügbar unter: https://github.com/EvolvingLMMs-Lab/NEO.
English
The edifice of native Vision-Language Models (VLMs) has emerged as a rising
contender to typical modular VLMs, shaped by evolving model architectures and
training paradigms. Yet, two lingering clouds cast shadows over its widespread
exploration and promotion: (-) What fundamental constraints set native VLMs
apart from modular ones, and to what extent can these barriers be overcome? (-)
How to make research in native VLMs more accessible and democratized, thereby
accelerating progress in the field. In this paper, we clarify these challenges
and outline guiding principles for constructing native VLMs. Specifically, one
native VLM primitive should: (i) effectively align pixel and word
representations within a shared semantic space; (ii) seamlessly integrate the
strengths of formerly separate vision and language modules; (iii) inherently
embody various cross-modal properties that support unified vision-language
encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of
native VLMs built from first principles, capable of rivaling top-tier modular
counterparts across diverse real-world scenarios. With only 390M image-text
examples, NEO efficiently develops visual perception from scratch while
mitigating vision-language conflicts inside a dense and monolithic model
crafted from our elaborate primitives. We position NEO as a cornerstone for
scalable and powerful native VLMs, paired with a rich set of reusable
components that foster a cost-effective and extensible ecosystem. Our code and
models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.