ChatPaper.aiChatPaper

Youtu-VL: Sfruttare il Potenziale Visivo tramite Supervisione Unificata Visione-Linguaggio

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

January 27, 2026
Autori: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI

Abstract

Nonostante i significativi progressi rappresentati dai Modelli Visione-Linguaggio (VLM), le architetture attuali mostrano spesso limitazioni nel conservare le informazioni visive di fine dettaglio, portando a una comprensione multimodale di tipo granulare-grossolano. Attribuiamo questa carenza a un paradigma di addestramento subottimale, intrinseco ai VLM prevalenti, che presenta un bias di ottimizzazione dominato dal testo, concettualizzando i segnali visivi semplicemente come input condizionali passivi piuttosto che come target di supervisione. Per mitigare ciò, introduciamo Youtu-VL, un framework che sfrutta il paradigma di Supervisione Autoregressiva Unificata Visione-Linguaggio (VLUAS), che sposta fondamentalmente l'obiettivo di ottimizzazione da "visione-come-input" a "visione-come-target". Integrando direttamente i token visivi nel flusso predittivo, Youtu-VL applica una supervisione autoregressiva unificata sia ai dettagli visivi che al contenuto linguistico. Inoltre, estendiamo questo paradigma per includere task incentrati sulla visione, consentendo a un VLM standard di eseguire tali compiti senza aggiunte specifiche. Valutazioni empiriche estensive dimostrano che Youtu-VL raggiunge prestazioni competitive sia sui task multimodali generali che su quelli incentrati sulla visione, stabilendo una solida base per lo sviluppo di agenti visivi generalisti e completi.
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.
PDF413February 8, 2026