Youtu-VL: Liberando o Potencial Visual por meio de Supervisão Unificada de Visão e Linguagem
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
January 27, 2026
Autores: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li
cs.AI
Resumo
Apesar dos avanços significativos representados pelos Modelos de Visão e Linguagem (VLMs), as arquiteturas atuais frequentemente exibem limitações na retenção de informações visuais de alta granularidade, levando a uma compreensão multimodal de granularidade grossa. Atribuímos essa deficiência a um paradigma de treinamento subótimo inerente aos VLMs predominantes, que exibe um viés de otimização dominado pelo texto, conceitualizando os sinais visuais meramente como entradas condicionais passivas, em vez de alvos supervisionados. Para mitigar isso, introduzimos o Youtu-VL, uma estrutura que aproveita o paradigma de Supervisão Autoregressiva Unificada de Visão e Linguagem (VLUAS), que desloca fundamentalmente o objetivo de otimização de "visão como entrada" para "visão como alvo". Ao integrar tokens visuais diretamente no fluxo de previsão, o Youtu-VL aplica uma supervisão autoregressiva unificada tanto aos detalhes visuais quanto ao conteúdo linguístico. Além disso, estendemos esse paradigma para abranger tarefas centradas na visão, permitindo que um VLM padrão execute tarefas centradas na visão sem adições específicas para cada tarefa. Avaliações empíricas extensivas demonstram que o Youtu-VL alcança um desempenho competitivo tanto em tarefas multimodais gerais quanto em tarefas centradas na visão, estabelecendo uma base robusta para o desenvolvimento de agentes visuais generalistas abrangentes.
English
Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.