AutoCLIP : Ajustement automatique des classifieurs zero-shot pour les modèles vision-langage
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models
September 28, 2023
papers.authors: Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi
cs.AI
papers.abstract
Les classificateurs basés sur des modèles vision-langage tels que CLIP ont démontré des performances remarquables en classification d'images en mode zero-shot sur un large éventail de tâches. Les travaux antérieurs ont exploré différentes méthodes pour créer automatiquement des ensembles de descripteurs pour chaque classe à partir de modèles de prompts, allant de modèles conçus manuellement à des modèles obtenus à partir d'un grand modèle de langage, en passant par des modèles construits à partir de mots et de caractères aléatoires. En revanche, la dérivation de classificateurs zero-shot à partir des descripteurs de classe encodés respectifs est restée pratiquement inchangée, c'est-à-dire : classer dans la classe qui maximise la similarité cosinus entre ses descripteurs de classe encodés moyennés et l'image encodée. Cependant, attribuer un poids égal à tous les descripteurs de classe peut être sous-optimal lorsque certains descripteurs correspondent mieux aux indices visuels d'une image donnée que d'autres. Dans ce travail, nous proposons AutoCLIP, une méthode pour auto-ajuster les classificateurs zero-shot. AutoCLIP attribue à chaque modèle de prompt des poids par image, qui sont dérivés des statistiques de similarité entre les descripteurs de classe et l'image au moment de l'inférence. AutoCLIP est entièrement non supervisé, a une très faible surcharge et peut être facilement implémenté en quelques lignes de code. Nous montrons que pour un large éventail de modèles vision-langage, de jeux de données et de modèles de prompts, AutoCLIP surpasse les méthodes de référence de manière constante et jusqu'à 3 points de pourcentage en précision.
English
Classifiers built upon vision-language models such as CLIP have shown
remarkable zero-shot performance across a broad range of image classification
tasks. Prior work has studied different ways of automatically creating
descriptor sets for every class based on prompt templates, ranging from
manually engineered templates over templates obtained from a large language
model to templates built from random words and characters. In contrast,
deriving zero-shot classifiers from the respective encoded class descriptors
has remained nearly unchanged, that is: classify to the class that maximizes
the cosine similarity between its averaged encoded class descriptors and the
encoded image. However, weighting all class descriptors equally can be
suboptimal when certain descriptors match visual clues on a given image better
than others. In this work, we propose AutoCLIP, a method for auto-tuning
zero-shot classifiers. AutoCLIP assigns to each prompt template per-image
weights, which are derived from statistics of class descriptor-image
similarities at inference time. AutoCLIP is fully unsupervised, has very low
overhead, and can be easily implemented in few lines of code. We show that for
a broad range of vision-language models, datasets, and prompt templates,
AutoCLIP outperforms baselines consistently and by up to 3 percent point
accuracy.