AutoCLIP: Ottimizzazione Automatica dei Classificatori Zero-Shot per Modelli Visione-Linguaggio

Abstract

I classificatori basati su modelli visione-linguaggio come CLIP hanno dimostrato prestazioni zero-shot notevoli in un'ampia gamma di attività di classificazione di immagini. Ricerche precedenti hanno studiato diversi modi per creare automaticamente insiemi di descrittori per ogni classe basati su template di prompt, che vanno da template progettati manualmente a template ottenuti da un modello linguistico di grandi dimensioni, fino a template costruiti da parole e caratteri casuali. Al contrario, la derivazione di classificatori zero-shot dai rispettivi descrittori di classe codificati è rimasta pressoché invariata, ovvero: classificare nella classe che massimizza la similarità coseno tra i suoi descrittori di classe codificati medi e l'immagine codificata. Tuttavia, assegnare lo stesso peso a tutti i descrittori di classe può essere subottimale quando alcuni descrittori corrispondono meglio agli indizi visivi di una determinata immagine rispetto ad altri. In questo lavoro, proponiamo AutoCLIP, un metodo per l'auto-tuning dei classificatori zero-shot. AutoCLIP assegna a ciascun template di prompt dei pesi per immagine, che sono derivati dalle statistiche delle similarità tra descrittori di classe e immagine al momento dell'inferenza. AutoCLIP è completamente non supervisionato, ha un overhead molto basso e può essere facilmente implementato in poche righe di codice. Dimostriamo che, per un'ampia gamma di modelli visione-linguaggio, dataset e template di prompt, AutoCLIP supera costantemente i baseline con un miglioramento fino a 3 punti percentuali in termini di accuratezza.

English

Classifiers built upon vision-language models such as CLIP have shown remarkable zero-shot performance across a broad range of image classification tasks. Prior work has studied different ways of automatically creating descriptor sets for every class based on prompt templates, ranging from manually engineered templates over templates obtained from a large language model to templates built from random words and characters. In contrast, deriving zero-shot classifiers from the respective encoded class descriptors has remained nearly unchanged, that is: classify to the class that maximizes the cosine similarity between its averaged encoded class descriptors and the encoded image. However, weighting all class descriptors equally can be suboptimal when certain descriptors match visual clues on a given image better than others. In this work, we propose AutoCLIP, a method for auto-tuning zero-shot classifiers. AutoCLIP assigns to each prompt template per-image weights, which are derived from statistics of class descriptor-image similarities at inference time. AutoCLIP is fully unsupervised, has very low overhead, and can be easily implemented in few lines of code. We show that for a broad range of vision-language models, datasets, and prompt templates, AutoCLIP outperforms baselines consistently and by up to 3 percent point accuracy.

AutoCLIP: Ottimizzazione Automatica dei Classificatori Zero-Shot per Modelli Visione-Linguaggio

AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

Abstract

Support