Von Pixeln zu Worten – Auf dem Weg zu nativen Vision-Sprache-Primitiven im großen Maßstab

papers.abstract

Das Gebäude nativer Vision-Language-Modelle (VLMs) hat sich als aufstrebender Konkurrent zu typischen modularen VLMs herausgebildet, geprägt durch sich entwickelnde Modellarchitekturen und Trainingsparadigmen. Dennoch werfen zwei anhaltende Wolken Schatten auf ihre weit verbreitete Erforschung und Förderung: (-) Welche grundlegenden Einschränkungen unterscheiden native VLMs von modularen, und in welchem Umfang können diese Barrieren überwunden werden? (-) Wie kann die Forschung in nativen VLMs zugänglicher und demokratisiert werden, um so den Fortschritt in diesem Bereich zu beschleunigen? In diesem Artikel klären wir diese Herausforderungen und skizzieren Leitprinzipien für den Aufbau nativer VLMs. Konkret sollte ein primitives natives VLM: (i) effektiv Pixel- und Wortrepräsentationen in einem gemeinsamen semantischen Raum ausrichten; (ii) nahtlos die Stärken ehemals separater Vision- und Sprachmodule integrieren; (iii) intrinsisch verschiedene cross-modale Eigenschaften verkörpern, die einheitliche Vision-Language-Kodierung, Ausrichtung und Schlussfolgerung unterstützen. Daher lancieren wir NEO, eine neuartige Familie nativer VLMs, die auf ersten Prinzipien basiert und in der Lage ist, in verschiedenen realen Szenarien mit erstklassigen modularen Gegenstücken zu konkurrieren. Mit nur 390M Bild-Text-Beispielen entwickelt NEO effizient visuelle Wahrnehmung von Grund auf, während es Vision-Language-Konflikte innerhalb eines dichten und monolithischen Modells, das aus unseren ausgefeilten Primitiven besteht, mildert. Wir positionieren NEO als Eckpfeiler für skalierbare und leistungsstarke native VLMs, gepaart mit einer reichhaltigen Sammlung wiederverwendbarer Komponenten, die ein kosteneffektives und erweiterbares Ökosystem fördern. Unser Code und unsere Modelle sind öffentlich verfügbar unter: https://github.com/EvolvingLMMs-Lab/NEO.

English

The edifice of native Vision-Language Models (VLMs) has emerged as a rising contender to typical modular VLMs, shaped by evolving model architectures and training paradigms. Yet, two lingering clouds cast shadows over its widespread exploration and promotion: (-) What fundamental constraints set native VLMs apart from modular ones, and to what extent can these barriers be overcome? (-) How to make research in native VLMs more accessible and democratized, thereby accelerating progress in the field. In this paper, we clarify these challenges and outline guiding principles for constructing native VLMs. Specifically, one native VLM primitive should: (i) effectively align pixel and word representations within a shared semantic space; (ii) seamlessly integrate the strengths of formerly separate vision and language modules; (iii) inherently embody various cross-modal properties that support unified vision-language encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of native VLMs built from first principles, capable of rivaling top-tier modular counterparts across diverse real-world scenarios. With only 390M image-text examples, NEO efficiently develops visual perception from scratch while mitigating vision-language conflicts inside a dense and monolithic model crafted from our elaborate primitives. We position NEO as a cornerstone for scalable and powerful native VLMs, paired with a rich set of reusable components that foster a cost-effective and extensible ecosystem. Our code and models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.

Von Pixeln zu Worten – Auf dem Weg zu nativen Vision-Sprache-Primitiven im großen Maßstab

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

papers.abstract

Support