FVG-PT: Sintonização Adaptativa de Prompts Guiada por Vista de Primeiro Plano para Modelos de Visão e Linguagem

Resumo

A sintonia de instruções baseada em CLIP permite que os Modelos de Visão e Linguagem (VLMs) pré-treinados se adaptem eficientemente a tarefas subsequentes. Embora os estudos existentes tenham feito progressos significativos, eles dedicam atenção limitada às mudanças nas representações internas de atenção dos VLMs durante o processo de sintonia. Neste artigo, atribuímos os modos de falha das previsões da sintonia de instruções a desvios na atenção ao primeiro plano do codificador visual e propomos a Sintonia de Instruções Guiada por Visão do Primeiro Plano (FVG-PT), um módulo adaptativo de orientação de atenção ao primeiro plano do tipo "plug-and-play", para aliviar esses desvios. Concretamente, o FVG-PT introduz um Portão de Confiabilidade do Primeiro Plano treinável para melhorar automaticamente a qualidade da visão do primeiro plano, aplica um módulo de Compensação por Destilação do Primeiro Plano para orientar a atenção visual para o primeiro plano, e introduz ainda um módulo de Calibração Prévia para mitigar a degradação da generalização causada pelo foco excessivo no primeiro plano. Experimentos em múltiplos modelos de base e conjuntos de dados mostram a eficácia e compatibilidade do FVG-PT. Os códigos estão disponíveis em: https://github.com/JREion/FVG-PT

English

CLIP-based prompt tuning enables pretrained Vision-Language Models (VLMs) to efficiently adapt to downstream tasks. Although existing studies have made significant progress, they pay limited attention to changes in the internal attention representations of VLMs during the tuning process. In this paper, we attribute the failure modes of prompt tuning predictions to shifts in foreground attention of the visual encoder, and propose Foreground View-Guided Prompt Tuning (FVG-PT), an adaptive plug-and-play foreground attention guidance module, to alleviate the shifts. Concretely, FVG-PT introduces a learnable Foreground Reliability Gate to automatically enhance the foreground view quality, applies a Foreground Distillation Compensation module to guide visual attention toward the foreground, and further introduces a Prior Calibration module to mitigate generalization degradation caused by excessive focus on the foreground. Experiments on multiple backbone models and datasets show the effectiveness and compatibility of FVG-PT. Codes are available at: https://github.com/JREion/FVG-PT