Superare le insidie del fine-tuning dei modelli visione-linguaggio per la generalizzazione fuori distribuzione (OOD)

Abstract

I modelli visione-linguaggio esistenti dimostrano una forte capacità di generalizzazione su una varietà di domini visivi e compiti. Tuttavia, tali modelli eseguono principalmente il riconoscimento zero-shot in modo closed-set, e quindi faticano a gestire concetti visivi open-domain per loro stessa progettazione. Esistono recenti metodi di fine-tuning, come il prompt learning, che non solo studiano la discriminazione tra campioni in-distribuzione (ID) e out-of-distribution (OOD), ma mostrano anche alcuni miglioramenti nelle accuratezze sia ID che OOD. In questo articolo, dimostriamo innanzitutto che i modelli visione-linguaggio, dopo un sufficiente fine-tuning ma senza un'adeguata regolarizzazione, tendono a sovradattare le classi note nel dataset fornito, con una performance degradata sulle classi sconosciute. Proponiamo quindi un nuovo approccio, OGEN, per affrontare questa criticità, concentrandoci principalmente sul miglioramento della generalizzazione OOD dei modelli fine-tuned. Nello specifico, viene introdotto un generatore di feature condizionato alla classe per sintetizzare feature OOD utilizzando solo il nome della classe di qualsiasi classe sconosciuta. Tali feature sintetizzate forniranno conoscenze utili sulle classi sconosciute e aiuteranno a regolarizzare il confine decisionale tra dati ID e OOD quando ottimizzati congiuntamente. Altrettanto importante è il nostro meccanismo di auto-distillazione adattativa per regolarizzare il nostro modello di generazione delle feature durante l'ottimizzazione congiunta, ovvero trasferire adattivamente la conoscenza tra gli stati del modello per prevenire ulteriormente il sovradattamento. Gli esperimenti convalidano che il nostro metodo produce miglioramenti convincenti nella performance di generalizzazione OOD in diverse configurazioni.

English

Existing vision-language models exhibit strong generalization on a variety of visual domains and tasks. However, such models mainly perform zero-shot recognition in a closed-set manner, and thus struggle to handle open-domain visual concepts by design. There are recent finetuning methods, such as prompt learning, that not only study the discrimination between in-distribution (ID) and out-of-distribution (OOD) samples, but also show some improvements in both ID and OOD accuracies. In this paper, we first demonstrate that vision-language models, after long enough finetuning but without proper regularization, tend to overfit the known classes in the given dataset, with degraded performance on unknown classes. Then we propose a novel approach OGEN to address this pitfall, with the main focus on improving the OOD GENeralization of finetuned models. Specifically, a class-conditional feature generator is introduced to synthesize OOD features using just the class name of any unknown class. Such synthesized features will provide useful knowledge about unknowns and help regularize the decision boundary between ID and OOD data when optimized jointly. Equally important is our adaptive self-distillation mechanism to regularize our feature generation model during joint optimization, i.e., adaptively transferring knowledge between model states to further prevent overfitting. Experiments validate that our method yields convincing gains in OOD generalization performance in different settings.

Superare le insidie del fine-tuning dei modelli visione-linguaggio per la generalizzazione fuori distribuzione (OOD)

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

Abstract

Support