Het overwinnen van de valkuilen bij het finetunen van vision-language modellen voor out-of-distribution generalisatie
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
January 29, 2024
Auteurs: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI
Samenvatting
Bestaande visie-taalmodellen vertonen sterke generalisatie op een verscheidenheid aan visuele domeinen en taken. Dergelijke modellen voeren echter voornamelijk zero-shot herkenning uit op een gesloten manier, en hebben daardoor moeite met het omgaan met open-domein visuele concepten door hun ontwerp. Er zijn recente finetuning-methoden, zoals prompt learning, die niet alleen de discriminatie tussen in-distributie (ID) en out-of-distributie (OOD) monsters bestuderen, maar ook verbeteringen laten zien in zowel ID- als OOD-nauwkeurigheid. In dit artikel tonen we eerst aan dat visie-taalmodellen, na voldoende lange finetuning maar zonder de juiste regularisatie, de neiging hebben om over te passen op de bekende klassen in de gegeven dataset, met een verslechterde prestaties op onbekende klassen. Vervolgens stellen we een nieuwe aanpak voor, OGEN, om deze valkuil aan te pakken, met de focus op het verbeteren van de OOD-generalisatie van gefinetunede modellen. Specifiek wordt een klasse-conditionele kenmerkengenerator geïntroduceerd om OOD-kenmerken te synthetiseren met alleen de klassenaam van een onbekende klasse. Dergelijke gesynthetiseerde kenmerken zullen nuttige kennis bieden over onbekenden en helpen bij het regulariseren van de beslissingsgrens tussen ID- en OOD-gegevens wanneer ze gezamenlijk worden geoptimaliseerd. Even belangrijk is ons adaptieve zelf-distillatiemechanisme om onze kenmerkgeneratiemodel te regulariseren tijdens gezamenlijke optimalisatie, d.w.z. het adaptief overdragen van kennis tussen modeltoestanden om verder overfitting te voorkomen. Experimenten valideren dat onze methode overtuigende verbeteringen oplevert in OOD-generalisatieprestaties in verschillende settings.
English
Existing vision-language models exhibit strong generalization on a variety of
visual domains and tasks. However, such models mainly perform zero-shot
recognition in a closed-set manner, and thus struggle to handle open-domain
visual concepts by design. There are recent finetuning methods, such as prompt
learning, that not only study the discrimination between in-distribution (ID)
and out-of-distribution (OOD) samples, but also show some improvements in both
ID and OOD accuracies. In this paper, we first demonstrate that vision-language
models, after long enough finetuning but without proper regularization, tend to
overfit the known classes in the given dataset, with degraded performance on
unknown classes. Then we propose a novel approach OGEN to address this pitfall,
with the main focus on improving the OOD GENeralization of finetuned models.
Specifically, a class-conditional feature generator is introduced to synthesize
OOD features using just the class name of any unknown class. Such synthesized
features will provide useful knowledge about unknowns and help regularize the
decision boundary between ID and OOD data when optimized jointly. Equally
important is our adaptive self-distillation mechanism to regularize our feature
generation model during joint optimization, i.e., adaptively transferring
knowledge between model states to further prevent overfitting. Experiments
validate that our method yields convincing gains in OOD generalization
performance in different settings.