FVG-PT : Réglage adaptatif des invites guidé par la vue du premier plan pour les modèles vision-langage
FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models
March 9, 2026
Auteurs: Haoyang Li, Liang Wang, Siyu Zhou, Jiacheng Sun, Jing Jiang, Chao Wang, Guodong Long, Yan Peng
cs.AI
Résumé
L'ajustement par prompt basé sur CLIP permet aux modèles de vision et langage (VLM) pré-entraînés de s'adapter efficacement à des tâches en aval. Bien que les études existantes aient réalisé des progrès significatifs, elles accordent une attention limitée aux changements dans les représentations attentionnelles internes des VLM pendant le processus d'ajustement. Dans cet article, nous attribuons les modes d'échec des prédictions par ajustement de prompt à des dérives de l'attention sur l'avant-plan dans l'encodeur visuel, et proposons l'ajustement de prompt guidé par la vue de l'avant-plan (FVG-PT), un module plug-and-play adaptatif de guidage attentionnel de l'avant-plan, pour atténuer ces dérives. Concrètement, FVG-PT introduit une porte de fiabilité de l'avant-plan adaptable pour améliorer automatiquement la qualité de la vue de l'avant-plan, applique un module de compensation par distillation de l'avant-plan pour guider l'attention visuelle vers l'avant-plan, et introduit en outre un module d'étalonnage préalable pour atténuer la dégradation de la généralisation causée par une focalisation excessive sur l'avant-plan. Les expériences sur plusieurs modèles de base et jeux de données montrent l'efficacité et la compatibilité de FVG-PT. Les codes sont disponibles à l'adresse : https://github.com/JREion/FVG-PT
English
CLIP-based prompt tuning enables pretrained Vision-Language Models (VLMs) to efficiently adapt to downstream tasks. Although existing studies have made significant progress, they pay limited attention to changes in the internal attention representations of VLMs during the tuning process. In this paper, we attribute the failure modes of prompt tuning predictions to shifts in foreground attention of the visual encoder, and propose Foreground View-Guided Prompt Tuning (FVG-PT), an adaptive plug-and-play foreground attention guidance module, to alleviate the shifts. Concretely, FVG-PT introduces a learnable Foreground Reliability Gate to automatically enhance the foreground view quality, applies a Foreground Distillation Compensation module to guide visual attention toward the foreground, and further introduces a Prior Calibration module to mitigate generalization degradation caused by excessive focus on the foreground. Experiments on multiple backbone models and datasets show the effectiveness and compatibility of FVG-PT. Codes are available at: https://github.com/JREion/FVG-PT