ChatPaper.aiChatPaper

AutoCLIP: Automatische Feinabstimmung von Zero-Shot-Klassifikatoren für Vision-Sprache-Modelle

AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

September 28, 2023
papers.authors: Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi
cs.AI

papers.abstract

Klassifikatoren, die auf Vision-Sprache-Modellen wie CLIP basieren, haben bemerkenswerte Zero-Shot-Leistungen über eine breite Palette von Bildklassifizierungsaufgaben gezeigt. Frühere Arbeiten haben verschiedene Methoden untersucht, um automatisch Deskriptorsätze für jede Klasse basierend auf Prompt-Vorlagen zu erstellen, die von manuell konstruierten Vorlagen über Vorlagen, die von einem großen Sprachmodell stammen, bis hin zu Vorlagen aus zufälligen Wörtern und Zeichen reichen. Im Gegensatz dazu ist die Ableitung von Zero-Shot-Klassifikatoren aus den jeweiligen kodierten Klassendeskriptoren nahezu unverändert geblieben, d.h.: Klassifiziere in die Klasse, die die Kosinusähnlichkeit zwischen ihren gemittelten kodierten Klassendeskriptoren und dem kodierten Bild maximiert. Es kann jedoch suboptimal sein, alle Klassendeskriptoren gleich zu gewichten, wenn bestimmte Deskriptoren visuelle Hinweise auf einem gegebenen Bild besser abdecken als andere. In dieser Arbeit schlagen wir AutoCLIP vor, eine Methode zur automatischen Feinabstimmung von Zero-Shot-Klassifikatoren. AutoCLIP weist jeder Prompt-Vorlage pro Bild Gewichte zu, die aus Statistiken der Ähnlichkeiten zwischen Klassendeskriptoren und Bildern zum Zeitpunkt der Inferenz abgeleitet werden. AutoCLIP ist vollständig unüberwacht, hat einen sehr geringen Overhead und kann leicht in wenigen Codezeilen implementiert werden. Wir zeigen, dass AutoCLIP für eine breite Palette von Vision-Sprache-Modellen, Datensätzen und Prompt-Vorlagen die Baselines konsistent und um bis zu 3 Prozentpunkte in der Genauigkeit übertrifft.
English
Classifiers built upon vision-language models such as CLIP have shown remarkable zero-shot performance across a broad range of image classification tasks. Prior work has studied different ways of automatically creating descriptor sets for every class based on prompt templates, ranging from manually engineered templates over templates obtained from a large language model to templates built from random words and characters. In contrast, deriving zero-shot classifiers from the respective encoded class descriptors has remained nearly unchanged, that is: classify to the class that maximizes the cosine similarity between its averaged encoded class descriptors and the encoded image. However, weighting all class descriptors equally can be suboptimal when certain descriptors match visual clues on a given image better than others. In this work, we propose AutoCLIP, a method for auto-tuning zero-shot classifiers. AutoCLIP assigns to each prompt template per-image weights, which are derived from statistics of class descriptor-image similarities at inference time. AutoCLIP is fully unsupervised, has very low overhead, and can be easily implemented in few lines of code. We show that for a broad range of vision-language models, datasets, and prompt templates, AutoCLIP outperforms baselines consistently and by up to 3 percent point accuracy.
PDF192December 15, 2024