Youtu-VL: 統一的な視覚言語教師信号による視覚的可能性の解放
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
January 27, 2026
著者: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI
要旨
ビジョン言語モデル(VLM)の飛躍的進歩にもかかわらず、現行のアーキテクチャは細粒度の視覚情報を保持する能力に限界があり、結果として粗粒度のマルチモーダル理解に留まることが多い。本研究では、この欠点を主流のVLMに内在する最適化パラダイムの不備に帰因する。具体的には、視覚信号を単なる受動的条件付けの入力として扱い、教師信号として位置付けない「テキスト主導型最適化バイアス」が原因である。この問題を解決するため、我々は「視覚を入力として」から「視覚を目標として」へ最適化目標を根本的に転換する、視覚言語統一自己回帰監督(VLUAS)パラダイムを採用したYoutu-VLを提案する。視覚トークンを予測ストリームに直接統合することで、Youtu-VLは視覚的詳細と言語的コンテンツの双方に統一的な自己回帰監督を適用する。さらに、このパラダイムを視覚中心タスクに拡張し、タスク固有の追加要素なしで標準VLMが視覚中心タスクを実行可能にする。大規模な実証評価により、Youtu-VLが一般マルチモーダルタスクと視覚中心タスクの両方で競合力のある性能を達成し、包括的な汎用視覚エージェント開発の堅牢な基盤を確立することを実証した。
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.