Youtu-VL: Sfruttare il Potenziale Visivo tramite Supervisione Unificata Visione-Linguaggio

Abstract

Nonostante i significativi progressi rappresentati dai Modelli Visione-Linguaggio (VLM), le architetture attuali mostrano spesso limitazioni nel conservare le informazioni visive di fine dettaglio, portando a una comprensione multimodale di tipo granulare-grossolano. Attribuiamo questa carenza a un paradigma di addestramento subottimale, intrinseco ai VLM prevalenti, che presenta un bias di ottimizzazione dominato dal testo, concettualizzando i segnali visivi semplicemente come input condizionali passivi piuttosto che come target di supervisione. Per mitigare ciò, introduciamo Youtu-VL, un framework che sfrutta il paradigma di Supervisione Autoregressiva Unificata Visione-Linguaggio (VLUAS), che sposta fondamentalmente l'obiettivo di ottimizzazione da "visione-come-input" a "visione-come-target". Integrando direttamente i token visivi nel flusso predittivo, Youtu-VL applica una supervisione autoregressiva unificata sia ai dettagli visivi che al contenuto linguistico. Inoltre, estendiamo questo paradigma per includere task incentrati sulla visione, consentendo a un VLM standard di eseguire tali compiti senza aggiunte specifiche. Valutazioni empiriche estensive dimostrano che Youtu-VL raggiunge prestazioni competitive sia sui task multimodali generali che su quelli incentrati sulla visione, stabilendo una solida base per lo sviluppo di agenti visivi generalisti e completi.

English

Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.

Youtu-VL: Sfruttare il Potenziale Visivo tramite Supervisione Unificata Visione-Linguaggio

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Abstract

Support