Youtu-VL: 통합 비전-언어 지도 학습을 통한 시각적 잠재력 해방
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
January 27, 2026
저자: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI
초록
비전-언어 모델(VLM)의 상당한 발전에도 불구하고, 현재 아키텍처는 종종 세밀한 시각 정보를 유지하는 데 한계를 보여 과도하게 추상적인 다중模态 이해로 이어집니다. 우리는 이러한 결함을 기존 VLM에 내재된 최적화되지 않은 학습 패러다임, 즉 시각 신호를 단순히 수동적인 조건부 입력으로 개념화하여 지배적인 텍스트 최적화 편향을 나타내는 것으로 귀결합니다. 이를 완화하기 위해 우리는 최적화 목표를 "시각을 입력으로"에서 "시각을 목표로"로 근본적으로 전환하는 비전-언어 통합 자기회귀 예측(VLUAS) 패러다임을 활용하는 Youtu-VL 프레임워크를 소개합니다. 시각 토큰을 예측 스트림에 직접 통합함으로써 Youtu-VL은 시각적 세부 사항과 언어적 내용에 통합된 자기회귀 예측을 적용합니다. 더 나아가 이 패러다임을 시각 중심 작업으로 확장하여 표준 VLM이 작업별 추가 장치 없이도 시각 중심 작업을 수행할 수 있도록 합니다. 광범위한 실증 평가를 통해 Youtu-VL이 일반 다중模态 작업과 시각 중심 작업 모두에서 경쟁력 있는 성능을 달성하여 포괄적인 일반 목적 시각 에이전트 개발을 위한 견고한 기반을 마련함을 입증합니다.
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.