PictSure: Vooraf getrainde embeddings zijn cruciaal voor in-context leerafbeeldingsclassificatoren
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
June 16, 2025
Auteurs: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI
Samenvatting
Het bouwen van beeldclassificatiemodellen blijft omslachtig in domeinen met schaarse data, waar het verzamelen van grote gelabelde datasets onpraktisch is. In-context learning (ICL) is naar voren gekomen als een veelbelovend paradigma voor few-shot beeldclassificatie (FSIC), waardoor modellen kunnen generaliseren over domeinen zonder gradient-gebaseerde aanpassing. Echter heeft eerder werk grotendeels een cruciaal onderdeel van ICL-gebaseerde FSIC-pipelines over het hoofd gezien: de rol van beeld-embeddings. In dit werk presenteren we PictSure, een ICL-framework dat het embeddingmodel – zijn architectuur, voorafgaande training en trainingsdynamiek – centraal stelt in de analyse. We onderzoeken systematisch de effecten van verschillende typen visuele encoders, doelen voor voorafgaande training en fine-tuning strategieën op de prestaties van downstream FSIC. Onze experimenten tonen aan dat het trainingssucces en de prestaties buiten het domein sterk afhankelijk zijn van hoe de embeddingmodellen zijn voorgetraind. Hierdoor slaagt PictSure erin bestaande ICL-gebaseerde FSIC-modellen te overtreffen op benchmarks buiten het domein die aanzienlijk verschillen van de trainingsdistributie, terwijl vergelijkbare resultaten worden behouden op taken binnen het domein. Code is te vinden op https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce
domains, where collecting large labeled datasets is impractical. In-context
learning (ICL) has emerged as a promising paradigm for few-shot image
classification (FSIC), enabling models to generalize across domains without
gradient-based adaptation. However, prior work has largely overlooked a
critical component of ICL-based FSIC pipelines: the role of image embeddings.
In this work, we present PictSure, an ICL framework that places the embedding
model -- its architecture, pretraining, and training dynamics -- at the center
of analysis. We systematically examine the effects of different visual encoder
types, pretraining objectives, and fine-tuning strategies on downstream FSIC
performance. Our experiments show that the training success and the
out-of-domain performance are highly dependent on how the embedding models are
pretrained. Consequently, PictSure manages to outperform existing ICL-based
FSIC models on out-of-domain benchmarks that differ significantly from the
training distribution, while maintaining comparable results on in-domain tasks.
Code can be found at https://github.com/PictSure/pictsure-library.