ChatPaper.aiChatPaper

Überwindung der Fallstricke beim Feintuning von Vision-Sprache-Modellen für OOD-Generalisierung

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

January 29, 2024
Autoren: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI

Zusammenfassung

Bestehende Vision-Sprache-Modelle zeigen eine starke Generalisierungsfähigkeit in einer Vielzahl von visuellen Domänen und Aufgaben. Solche Modelle führen jedoch hauptsächlich Zero-Shot-Erkennung in einer geschlossenen Menge durch und haben daher von Natur aus Schwierigkeiten, offene visuelle Konzepte zu verarbeiten. Es gibt neuere Feinabstimmungsmethoden, wie Prompt Learning, die nicht nur die Unterscheidung zwischen In-Distribution (ID)- und Out-of-Distribution (OOD)-Stichproben untersuchen, sondern auch Verbesserungen in den Genauigkeiten sowohl für ID als auch für OOD zeigen. In diesem Artikel demonstrieren wir zunächst, dass Vision-Sprache-Modelle nach ausreichend langer Feinabstimmung ohne geeignete Regularisierung dazu neigen, die bekannten Klassen im gegebenen Datensatz zu überanpassen, was zu einer verschlechterten Leistung bei unbekannten Klassen führt. Anschließend schlagen wir einen neuartigen Ansatz namens OGEN vor, um diese Schwachstelle zu beheben, mit dem Hauptaugenmerk auf der Verbesserung der OOD-Generalisierung feinabgestimmter Modelle. Insbesondere wird ein klassenbedingter Merkmalsgenerator eingeführt, der OOD-Merkmale allein anhand des Klassennamens einer unbekannten Klasse synthetisiert. Solche synthetisierten Merkmale liefern nützliches Wissen über Unbekannte und helfen, die Entscheidungsgrenze zwischen ID- und OOD-Daten zu regularisieren, wenn sie gemeinsam optimiert werden. Ebenso wichtig ist unser adaptiver Selbst-Distillationsmechanismus, um unser Merkmalsgenerierungsmodell während der gemeinsamen Optimierung zu regularisieren, d.h. Wissen zwischen Modellzuständen adaptiv zu übertragen, um eine Überanpassung weiter zu verhindern. Experimente bestätigen, dass unsere Methode überzeugende Verbesserungen in der OOD-Generalisierungsleistung in verschiedenen Settings erzielt.
English
Existing vision-language models exhibit strong generalization on a variety of visual domains and tasks. However, such models mainly perform zero-shot recognition in a closed-set manner, and thus struggle to handle open-domain visual concepts by design. There are recent finetuning methods, such as prompt learning, that not only study the discrimination between in-distribution (ID) and out-of-distribution (OOD) samples, but also show some improvements in both ID and OOD accuracies. In this paper, we first demonstrate that vision-language models, after long enough finetuning but without proper regularization, tend to overfit the known classes in the given dataset, with degraded performance on unknown classes. Then we propose a novel approach OGEN to address this pitfall, with the main focus on improving the OOD GENeralization of finetuned models. Specifically, a class-conditional feature generator is introduced to synthesize OOD features using just the class name of any unknown class. Such synthesized features will provide useful knowledge about unknowns and help regularize the decision boundary between ID and OOD data when optimized jointly. Equally important is our adaptive self-distillation mechanism to regularize our feature generation model during joint optimization, i.e., adaptively transferring knowledge between model states to further prevent overfitting. Experiments validate that our method yields convincing gains in OOD generalization performance in different settings.
PDF71December 15, 2024