ChatPaper.aiChatPaper

Youtu-VL: Liberando el Potencial Visual mediante Supervisión Unificada de Visión y Lenguaje

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

January 27, 2026
Autores: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI

Resumen

A pesar de los avances significativos que representan los Modelos de Visión y Lenguaje (VLMs), las arquitecturas actuales a menudo presentan limitaciones para retener información visual detallada, lo que conduce a una comprensión multimodal de grano grueso. Atribuimos esta deficiencia a un paradigma de entrenamiento subóptimo inherente a los VLMs predominantes, que exhibe un sesgo de optimización dominado por el texto al conceptualizar las señales visuales meramente como entradas condicionales pasivas en lugar de objetivos de supervisión. Para mitigar esto, presentamos Youtu-VL, un marco que aprovecha el paradigma de Supervisión Autoregresiva Unificada de Visión y Lenguaje (VLUAS), que cambia fundamentalmente el objetivo de optimización de "la visión como entrada" a "la visión como objetivo". Al integrar tokens visuales directamente en el flujo de predicción, Youtu-VL aplica una supervisión autoregresiva unificada tanto a los detalles visuales como al contenido lingüístico. Además, extendemos este paradigma para abarcar tareas centradas en la visión, permitiendo que un VLM estándar realice dichas tareas sin adiciones específicas. Evaluaciones empíricas exhaustivas demuestran que Youtu-VL logra un rendimiento competitivo tanto en tareas multimodales generales como en tareas centradas en la visión, estableciendo una base sólida para el desarrollo de agentes visuales generalistas integrales.
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.
PDF161January 29, 2026