PictSure: Vooraf getrainde embeddings zijn cruciaal voor in-context leerafbeeldingsclassificatoren

Samenvatting

Het bouwen van beeldclassificatiemodellen blijft omslachtig in domeinen met schaarse data, waar het verzamelen van grote gelabelde datasets onpraktisch is. In-context learning (ICL) is naar voren gekomen als een veelbelovend paradigma voor few-shot beeldclassificatie (FSIC), waardoor modellen kunnen generaliseren over domeinen zonder gradient-gebaseerde aanpassing. Echter heeft eerder werk grotendeels een cruciaal onderdeel van ICL-gebaseerde FSIC-pipelines over het hoofd gezien: de rol van beeld-embeddings. In dit werk presenteren we PictSure, een ICL-framework dat het embeddingmodel – zijn architectuur, voorafgaande training en trainingsdynamiek – centraal stelt in de analyse. We onderzoeken systematisch de effecten van verschillende typen visuele encoders, doelen voor voorafgaande training en fine-tuning strategieën op de prestaties van downstream FSIC. Onze experimenten tonen aan dat het trainingssucces en de prestaties buiten het domein sterk afhankelijk zijn van hoe de embeddingmodellen zijn voorgetraind. Hierdoor slaagt PictSure erin bestaande ICL-gebaseerde FSIC-modellen te overtreffen op benchmarks buiten het domein die aanzienlijk verschillen van de trainingsdistributie, terwijl vergelijkbare resultaten worden behouden op taken binnen het domein. Code is te vinden op https://github.com/PictSure/pictsure-library.

English

Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.

PictSure: Vooraf getrainde embeddings zijn cruciaal voor in-context leerafbeeldingsclassificatoren

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Samenvatting

Support