Youtu-VL: Раскрытие визуального потенциала с помощью унифицированного визуально-языкового контроля
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
January 27, 2026
Авторы: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI
Аннотация
Несмотря на значительный прогресс, достигнутый моделями «визуальный язык» (Vision-Language Models, VLM), современные архитектуры часто демонстрируют ограниченную способность сохранять мелкозернистую визуальную информацию, что приводит к грубозернистому мультимодальному пониманию. Мы объясняем этот недостаток субоптимальной парадигмой обучения, присущей преобладающим VLM, которая демонстрирует тексто-доминантную оптимизационную предвзятость, трактуя визуальные сигналы лишь как пассивные условные входные данные, а не как целевые ориентиры. Для решения этой проблемы мы представляем Youtu-VL — фреймворк, использующий парадигму унифицированного авторегрессионного обучения «визуальный язык» (Vision-Language Unified Autoregressive Supervision, VLUAS), которая фундаментально смещает цель оптимизации от «визуализация-как-вход» к «визуализация-как-цель». Интегрируя визуальные токены непосредственно в поток прогнозирования, Youtu-VL применяет унифицированное авторегрессионное обучение как к визуальным деталям, так и к лингвистическому содержанию. Кроме того, мы расширяем эту парадигму на визуально-центричные задачи, позволяя стандартной VLM выполнять их без добавления специфичных для задачи компонентов. Результаты масштабных эмпирических оценок демонстрируют, что Youtu-VL достигает конкурентоспособных результатов как на общих мультимодальных, так и на визуально-центричных задачах, закладывая прочную основу для разработки универсальных визуальных агентов.
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.