Youtu-VL: Liberando o Potencial Visual por meio de Supervisão Unificada de Visão e Linguagem

Resumo

Apesar dos avanços significativos representados pelos Modelos de Visão e Linguagem (VLMs), as arquiteturas atuais frequentemente exibem limitações na retenção de informações visuais de alta granularidade, levando a uma compreensão multimodal de granularidade grossa. Atribuímos essa deficiência a um paradigma de treinamento subótimo inerente aos VLMs predominantes, que exibe um viés de otimização dominado pelo texto, conceitualizando os sinais visuais meramente como entradas condicionais passivas, em vez de alvos supervisionados. Para mitigar isso, introduzimos o Youtu-VL, uma estrutura que aproveita o paradigma de Supervisão Autoregressiva Unificada de Visão e Linguagem (VLUAS), que desloca fundamentalmente o objetivo de otimização de "visão como entrada" para "visão como alvo". Ao integrar tokens visuais diretamente no fluxo de previsão, o Youtu-VL aplica uma supervisão autoregressiva unificada tanto aos detalhes visuais quanto ao conteúdo linguístico. Além disso, estendemos esse paradigma para abranger tarefas centradas na visão, permitindo que um VLM padrão execute tarefas centradas na visão sem adições específicas para cada tarefa. Avaliações empíricas extensivas demonstram que o Youtu-VL alcança um desempenho competitivo tanto em tarefas multimodais gerais quanto em tarefas centradas na visão, estabelecendo uma base robusta para o desenvolvimento de agentes visuais generalistas abrangentes.

English

Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.

Youtu-VL: Liberando o Potencial Visual por meio de Supervisão Unificada de Visão e Linguagem

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Resumo

Support