Youtu-VL: Entfesselung des visuellen Potenzials durch einheitliche Vision-Language-Aufsicht
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
January 27, 2026
papers.authors: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI
papers.abstract
Trotz der bedeutenden Fortschritte, die Vision-Language-Modelle (VLMs) darstellen, weisen aktuelle Architekturen oft Einschränkungen bei der Bewahrung feingranularer visueller Informationen auf, was zu einer grobgranularen multimodalen Verständnisfähigkeit führt. Wir führen diesen Mangel auf ein suboptimales Trainingsparadigma zurück, das gängigen VLMs innewohnt und eine textdominierte Optimierungsverzerrung aufweist, indem visuelle Signale lediglich als passive konditionelle Eingaben und nicht als Aufsichtsziele konzeptualisiert werden. Um dies zu mildern, stellen wir Youtu-VL vor, ein Framework, das das Paradigma der vereinheitlichten autoregressiven Aufsicht für Vision und Sprache (Vision-Language Unified Autoregressive Supervision, VLUAS) nutzt. Dieses verlagert das Optimierungsziel grundlegend von „Vision-als-Eingabe“ zu „Vision-als-Ziel“. Indem visuelle Tokens direkt in den Vorhersagestrom integriert werden, wendet Youtu-VL eine vereinheitlichte autoregressive Aufsicht sowohl auf visuelle Details als auch auf linguistische Inhalte an. Darüber hinaus erweitern wir dieses Paradigma auf vision-zentrierte Aufgaben, was ein Standard-VLM befähigt, vision-zentrierte Aufgaben ohne aufgabenspezifische Erweiterungen durchzuführen. Umfangreiche empirische Evaluationen zeigen, dass Youtu-VL eine wettbewerbsfähige Leistung sowohl bei allgemeinen multimodalen Aufgaben als auch bei vision-zentrierten Aufgaben erzielt und somit eine robuste Grundlage für die Entwicklung umfassender generalistischer visueller Agenten schafft.
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.