От пикселей к словам — к нативным примитивам взаимодействия зрения и языка в масштабе
From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
October 16, 2025
Авторы: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu
cs.AI
Аннотация
Здание нативных моделей зрения и языка (Vision-Language Models, VLMs) стало новым претендентом на замену традиционных модульных VLMs, что обусловлено эволюцией архитектур моделей и подходов к обучению. Однако два ключевых вопроса остаются нерешенными, ограничивая их широкое исследование и продвижение: (1) Какие фундаментальные ограничения отличают нативные VLMs от модульных, и в какой степени эти барьеры могут быть преодолены? (2) Как сделать исследования в области нативных VLMs более доступными и демократизированными, тем самым ускоряя прогресс в этой области. В данной статье мы проясняем эти вызовы и предлагаем руководящие принципы для построения нативных VLMs. В частности, один примитив нативной VLM должен: (i) эффективно согласовывать представления пикселей и слов в общем семантическом пространстве; (ii) бесшовно интегрировать преимущества ранее разделенных модулей зрения и языка; (iii) изначально воплощать различные кросс-модальные свойства, поддерживающие унифицированное кодирование, согласование и рассуждение в области зрения и языка. Таким образом, мы представляем NEO — новое семейство нативных VLMs, построенных на основе фундаментальных принципов, способных конкурировать с лучшими модульными аналогами в разнообразных реальных сценариях. Используя всего 390 миллионов примеров изображений и текстов, NEO эффективно развивает визуальное восприятие с нуля, одновременно смягчая конфликты между зрением и языком внутри плотной и монолитной модели, созданной на основе наших тщательно разработанных примитивов. Мы позиционируем NEO как краеугольный камень для масштабируемых и мощных нативных VLMs, дополненных богатым набором повторно используемых компонентов, которые способствуют созданию экономически эффективной и расширяемой экосистемы. Наш код и модели доступны по адресу: https://github.com/EvolvingLMMs-Lab/NEO.
English
The edifice of native Vision-Language Models (VLMs) has emerged as a rising
contender to typical modular VLMs, shaped by evolving model architectures and
training paradigms. Yet, two lingering clouds cast shadows over its widespread
exploration and promotion: (-) What fundamental constraints set native VLMs
apart from modular ones, and to what extent can these barriers be overcome? (-)
How to make research in native VLMs more accessible and democratized, thereby
accelerating progress in the field. In this paper, we clarify these challenges
and outline guiding principles for constructing native VLMs. Specifically, one
native VLM primitive should: (i) effectively align pixel and word
representations within a shared semantic space; (ii) seamlessly integrate the
strengths of formerly separate vision and language modules; (iii) inherently
embody various cross-modal properties that support unified vision-language
encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of
native VLMs built from first principles, capable of rivaling top-tier modular
counterparts across diverse real-world scenarios. With only 390M image-text
examples, NEO efficiently develops visual perception from scratch while
mitigating vision-language conflicts inside a dense and monolithic model
crafted from our elaborate primitives. We position NEO as a cornerstone for
scalable and powerful native VLMs, paired with a rich set of reusable
components that foster a cost-effective and extensible ecosystem. Our code and
models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.