Youtu-VL: Het ontketenen van visueel potentieel via geünificeerd visueel-taalkundig toezicht

Samenvatting

Ondanks de significante vooruitgang die Vision-Language Models (VLM's) vertegenwoordigen, vertonen huidige architecturen vaak beperkingen in het behouden van fijnmazige visuele informatie, wat leidt tot grofmazige multimodale begrip. Wij schrijven dit tekort toe aan een suboptimaal trainingsparadigma dat inherent is aan heersende VLM's, dat een tekst-dominante optimalisatievooroordeel vertoont door visuele signalen louter te conceptualiseren als passieve conditionele inputs in plaats van superviserende doelen. Om dit te verhelpen, introduceren wij Youtu-VL, een raamwerk dat gebruikmaakt van het Vision-Language Unified Autoregressive Supervision (VLUAS) paradigma. Dit verschuift het optimalisatiedoel fundamenteel van "visie-als-input" naar "visie-als-doel". Door visuele tokens direct te integreren in de voorspellingsstroom, past Youtu-VL uniforme autoregressieve supervisie toe op zowel visuele details als linguïstische inhoud. Verder breiden wij dit paradigma uit naar visie-centrische taken, waardoor een standaard VLM visie-centrische taken kan uitvoeren zonder taakspecifieke toevoegingen. Uitgebreide empirische evaluaties tonen aan dat Youtu-VL competitieve prestaties bereikt op zowel algemene multimodale taken als visie-centrische taken, en zo een robuuste basis vestigt voor de ontwikkeling van uitgebreide generalistische visuele agentschappen.

English

Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.

Youtu-VL: Het ontketenen van visueel potentieel via geünificeerd visueel-taalkundig toezicht

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Samenvatting

Support