AutoCLIP: Ottimizzazione Automatica dei Classificatori Zero-Shot per Modelli Visione-Linguaggio
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models
September 28, 2023
Autori: Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi
cs.AI
Abstract
I classificatori basati su modelli visione-linguaggio come CLIP hanno dimostrato prestazioni zero-shot notevoli in un'ampia gamma di attività di classificazione di immagini. Ricerche precedenti hanno studiato diversi modi per creare automaticamente insiemi di descrittori per ogni classe basati su template di prompt, che vanno da template progettati manualmente a template ottenuti da un modello linguistico di grandi dimensioni, fino a template costruiti da parole e caratteri casuali. Al contrario, la derivazione di classificatori zero-shot dai rispettivi descrittori di classe codificati è rimasta pressoché invariata, ovvero: classificare nella classe che massimizza la similarità coseno tra i suoi descrittori di classe codificati medi e l'immagine codificata. Tuttavia, assegnare lo stesso peso a tutti i descrittori di classe può essere subottimale quando alcuni descrittori corrispondono meglio agli indizi visivi di una determinata immagine rispetto ad altri. In questo lavoro, proponiamo AutoCLIP, un metodo per l'auto-tuning dei classificatori zero-shot. AutoCLIP assegna a ciascun template di prompt dei pesi per immagine, che sono derivati dalle statistiche delle similarità tra descrittori di classe e immagine al momento dell'inferenza. AutoCLIP è completamente non supervisionato, ha un overhead molto basso e può essere facilmente implementato in poche righe di codice. Dimostriamo che, per un'ampia gamma di modelli visione-linguaggio, dataset e template di prompt, AutoCLIP supera costantemente i baseline con un miglioramento fino a 3 punti percentuali in termini di accuratezza.
English
Classifiers built upon vision-language models such as CLIP have shown
remarkable zero-shot performance across a broad range of image classification
tasks. Prior work has studied different ways of automatically creating
descriptor sets for every class based on prompt templates, ranging from
manually engineered templates over templates obtained from a large language
model to templates built from random words and characters. In contrast,
deriving zero-shot classifiers from the respective encoded class descriptors
has remained nearly unchanged, that is: classify to the class that maximizes
the cosine similarity between its averaged encoded class descriptors and the
encoded image. However, weighting all class descriptors equally can be
suboptimal when certain descriptors match visual clues on a given image better
than others. In this work, we propose AutoCLIP, a method for auto-tuning
zero-shot classifiers. AutoCLIP assigns to each prompt template per-image
weights, which are derived from statistics of class descriptor-image
similarities at inference time. AutoCLIP is fully unsupervised, has very low
overhead, and can be easily implemented in few lines of code. We show that for
a broad range of vision-language models, datasets, and prompt templates,
AutoCLIP outperforms baselines consistently and by up to 3 percent point
accuracy.