GeneCIS: Un Benchmark per la Similitudine Condizionale Generale delle Immagini

Abstract

Sosteniamo che esistono molteplici nozioni di "somiglianza" e che i modelli, come gli esseri umani, dovrebbero essere in grado di adattarsi a queste in modo dinamico. Ciò contrasta con la maggior parte dei metodi di apprendimento delle rappresentazioni, supervisionati o auto-supervisionati, che apprendono una funzione di embedding fissa e quindi assumono implicitamente una singola nozione di somiglianza. Ad esempio, i modelli addestrati su ImageNet sono orientati verso le categorie di oggetti, mentre un utente potrebbe preferire che il modello si concentri sui colori, sulle texture o su elementi specifici della scena. In questo articolo, proponiamo il benchmark GeneCIS ('genesi'), che misura la capacità dei modelli di adattarsi a una gamma di condizioni di somiglianza. Estendendo il lavoro precedente, il nostro benchmark è progettato esclusivamente per la valutazione zero-shot e considera quindi un insieme aperto di condizioni di somiglianza. Troviamo che i modelli di base di CLIP, pur potenti, faticano su GeneCIS e che le prestazioni sul benchmark sono solo debolmente correlate con l'accuratezza su ImageNet, suggerendo che semplicemente scalare i metodi esistenti non è fruttuoso. Proponiamo inoltre una soluzione semplice e scalabile basata sull'estrazione automatica di informazioni da dataset esistenti di immagini-didascalie. Scopriamo che il nostro metodo offre un sostanziale miglioramento rispetto ai modelli di base su GeneCIS e migliora ulteriormente le prestazioni zero-shot su benchmark correlati di recupero di immagini. In effetti, pur valutato in modalità zero-shot, il nostro modello supera i modelli supervisionati all'avanguardia su MIT-States. Pagina del progetto: https://sgvaze.github.io/genecis/.

English

We argue that there are many notions of 'similarity' and that models, like humans, should be able to adapt to these dynamically. This contrasts with most representation learning methods, supervised or self-supervised, which learn a fixed embedding function and hence implicitly assume a single notion of similarity. For instance, models trained on ImageNet are biased towards object categories, while a user might prefer the model to focus on colors, textures or specific elements in the scene. In this paper, we propose the GeneCIS ('genesis') benchmark, which measures models' ability to adapt to a range of similarity conditions. Extending prior work, our benchmark is designed for zero-shot evaluation only, and hence considers an open-set of similarity conditions. We find that baselines from powerful CLIP models struggle on GeneCIS and that performance on the benchmark is only weakly correlated with ImageNet accuracy, suggesting that simply scaling existing methods is not fruitful. We further propose a simple, scalable solution based on automatically mining information from existing image-caption datasets. We find our method offers a substantial boost over the baselines on GeneCIS, and further improves zero-shot performance on related image retrieval benchmarks. In fact, though evaluated zero-shot, our model surpasses state-of-the-art supervised models on MIT-States. Project page at https://sgvaze.github.io/genecis/.

GeneCIS: Un Benchmark per la Similitudine Condizionale Generale delle Immagini

GeneCIS: A Benchmark for General Conditional Image Similarity

Abstract

Support