ChatPaper.aiChatPaper

Dai pixel alle parole -- Verso primitive native visione-linguaggio su larga scala

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

October 16, 2025
Autori: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu
cs.AI

Abstract

L'edificio dei modelli nativi Vision-Linguaggio (VLMs) è emerso come un contendente in ascesa rispetto ai tipici VLMs modulari, plasmato dall'evoluzione delle architetture dei modelli e dei paradigmi di addestramento. Tuttavia, due persistenti nubi gettano ombre sulla sua ampia esplorazione e promozione: (-) Quali vincoli fondamentali distinguono i VLMs nativi da quelli modulari, e in che misura è possibile superare queste barriere? (-) Come rendere la ricerca sui VLMs nativi più accessibile e democratizzata, accelerando così i progressi nel campo. In questo articolo, chiariamo queste sfide e delineiamo principi guida per la costruzione di VLMs nativi. Nello specifico, un primitivo VLM nativo dovrebbe: (i) allineare efficacemente le rappresentazioni di pixel e parole all'interno di uno spazio semantico condiviso; (ii) integrare senza soluzione di continuità i punti di forza dei moduli di visione e linguaggio precedentemente separati; (iii) incarnare intrinsecamente varie proprietà cross-modali che supportano la codifica, l'allineamento e il ragionamento unificati tra visione e linguaggio. Pertanto, lanciamo NEO, una nuova famiglia di VLMs nativi costruiti dai primi principi, in grado di rivaleggiare con le controparti modulari di prim'ordine in diversi scenari del mondo reale. Con soli 390 milioni di esempi immagine-testo, NEO sviluppa efficacemente la percezione visiva da zero, mitigando i conflitti tra visione e linguaggio all'interno di un modello denso e monolitico realizzato dai nostri elaborati primitivi. Posizioniamo NEO come una pietra angolare per VLMs nativi scalabili e potenti, accompagnato da un ricco set di componenti riutilizzabili che favoriscono un ecosistema economico ed estensibile. Il nostro codice e i nostri modelli sono disponibili pubblicamente all'indirizzo: https://github.com/EvolvingLMMs-Lab/NEO.
English
The edifice of native Vision-Language Models (VLMs) has emerged as a rising contender to typical modular VLMs, shaped by evolving model architectures and training paradigms. Yet, two lingering clouds cast shadows over its widespread exploration and promotion: (-) What fundamental constraints set native VLMs apart from modular ones, and to what extent can these barriers be overcome? (-) How to make research in native VLMs more accessible and democratized, thereby accelerating progress in the field. In this paper, we clarify these challenges and outline guiding principles for constructing native VLMs. Specifically, one native VLM primitive should: (i) effectively align pixel and word representations within a shared semantic space; (ii) seamlessly integrate the strengths of formerly separate vision and language modules; (iii) inherently embody various cross-modal properties that support unified vision-language encoding, aligning, and reasoning. Hence, we launch NEO, a novel family of native VLMs built from first principles, capable of rivaling top-tier modular counterparts across diverse real-world scenarios. With only 390M image-text examples, NEO efficiently develops visual perception from scratch while mitigating vision-language conflicts inside a dense and monolithic model crafted from our elaborate primitives. We position NEO as a cornerstone for scalable and powerful native VLMs, paired with a rich set of reusable components that foster a cost-effective and extensible ecosystem. Our code and models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.
PDF632October 17, 2025