Surmonter les écueils du fine-tuning des modèles vision-langage pour la généralisation hors distribution
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
January 29, 2024
Auteurs: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI
Résumé
Les modèles vision-langage existants démontrent une forte généralisation sur une variété de domaines visuels et de tâches. Cependant, ces modèles effectuent principalement une reconnaissance en zero-shot de manière fermée, et peinent ainsi à gérer les concepts visuels en domaine ouvert par conception. Des méthodes récentes de fine-tuning, telles que l'apprentissage par prompts, non seulement étudient la discrimination entre les échantillons intra-distribution (ID) et hors-distribution (OOD), mais montrent également des améliorations dans les précisions ID et OOD. Dans cet article, nous démontrons d'abord que les modèles vision-langage, après un fine-tuning suffisamment long mais sans régularisation appropriée, ont tendance à sur-apprendre les classes connues dans le jeu de données donné, avec une performance dégradée sur les classes inconnues. Ensuite, nous proposons une nouvelle approche, OGEN, pour remédier à cet écueil, en mettant l'accent sur l'amélioration de la généralisation OOD des modèles fine-tunés. Plus précisément, un générateur de caractéristiques conditionné par classe est introduit pour synthétiser des caractéristiques OOD en utilisant uniquement le nom de classe de toute classe inconnue. Ces caractéristiques synthétisées fourniront des connaissances utiles sur les inconnues et aideront à régulariser la frontière de décision entre les données ID et OOD lors de l'optimisation conjointe. Tout aussi important est notre mécanisme d'auto-distillation adaptative pour régulariser notre modèle de génération de caractéristiques pendant l'optimisation conjointe, c'est-à-dire transférer de manière adaptative les connaissances entre les états du modèle pour prévenir davantage le sur-apprentissage. Les expériences valident que notre méthode apporte des gains convaincants en termes de performance de généralisation OOD dans différents contextes.
English
Existing vision-language models exhibit strong generalization on a variety of
visual domains and tasks. However, such models mainly perform zero-shot
recognition in a closed-set manner, and thus struggle to handle open-domain
visual concepts by design. There are recent finetuning methods, such as prompt
learning, that not only study the discrimination between in-distribution (ID)
and out-of-distribution (OOD) samples, but also show some improvements in both
ID and OOD accuracies. In this paper, we first demonstrate that vision-language
models, after long enough finetuning but without proper regularization, tend to
overfit the known classes in the given dataset, with degraded performance on
unknown classes. Then we propose a novel approach OGEN to address this pitfall,
with the main focus on improving the OOD GENeralization of finetuned models.
Specifically, a class-conditional feature generator is introduced to synthesize
OOD features using just the class name of any unknown class. Such synthesized
features will provide useful knowledge about unknowns and help regularize the
decision boundary between ID and OOD data when optimized jointly. Equally
important is our adaptive self-distillation mechanism to regularize our feature
generation model during joint optimization, i.e., adaptively transferring
knowledge between model states to further prevent overfitting. Experiments
validate that our method yields convincing gains in OOD generalization
performance in different settings.