Youtu-VL : Libérer le potentiel visuel grâce à une supervision unifiée vision-langage
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
January 27, 2026
papers.authors: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI
papers.abstract
Malgré les avancées significatives que représentent les modèles vision-langage (VLM), les architectures actuelles présentent souvent des limitations dans la rétention d'informations visuelles fines, conduisant à une compréhension multimodale grossière. Nous attribuons cette lacune à un paradigme d'entraînement sous-optimal inhérent aux VLM prédominants, qui présente un biais d'optimisation dominé par le texte en conceptualisant les signaux visuels simplement comme des entrées conditionnelles passives plutôt que comme des cibles de supervision. Pour y remédier, nous présentons Youtu-VL, un cadre exploitant le paradigme de Supervision Autoregressive Unifiée Vision-Langage (VLUAS), qui modifie fondamentalement l'objectif d'optimisation de « la vision comme entrée » vers « la vision comme cible ». En intégrant directement des tokens visuels dans le flux de prédiction, Youtu-VL applique une supervision autoregressive unifiée à la fois aux détails visuels et au contenu linguistique. De plus, nous étendons ce paradigme pour inclure des tâches centrées sur la vision, permettant à un VLM standard d'exécuter ces tâches sans ajouts spécifiques. Des évaluations empiriques approfondies démontrent que Youtu-VL atteint des performances compétitives à la fois sur les tâches multimodales générales et sur les tâches centrées sur la vision, établissant une base solide pour le développement d'agents visuels généralistes complets.
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.