PictSure: L'Addestramento Preliminare degli Embedding è Cruciale per i Classificatori di Immagini con Apprendimento In-Contesto
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
June 16, 2025
Autori: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI
Abstract
La costruzione di modelli di classificazione delle immagini rimane complessa in domini con scarsità di dati, dove la raccolta di grandi dataset etichettati risulta impraticabile. L'apprendimento in contesto (In-Context Learning, ICL) è emerso come un paradigma promettente per la classificazione di immagini con pochi esempi (Few-Shot Image Classification, FSIC), consentendo ai modelli di generalizzare tra domini senza adattamento basato su gradienti. Tuttavia, i lavori precedenti hanno largamente trascurato un componente critico delle pipeline FSIC basate su ICL: il ruolo degli embedding di immagini. In questo lavoro, presentiamo PictSure, un framework ICL che pone il modello di embedding — la sua architettura, il pretraining e le dinamiche di addestramento — al centro dell'analisi. Esaminiamo sistematicamente gli effetti di diversi tipi di encoder visivi, obiettivi di pretraining e strategie di fine-tuning sulle prestazioni FSIC a valle. I nostri esperimenti dimostrano che il successo dell'addestramento e le prestazioni fuori dominio dipendono fortemente da come i modelli di embedding sono stati preaddestrati. Di conseguenza, PictSure riesce a superare i modelli FSIC basati su ICL esistenti su benchmark fuori dominio che differiscono significativamente dalla distribuzione di addestramento, mantenendo risultati comparabili su task in dominio. Il codice è disponibile all'indirizzo https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce
domains, where collecting large labeled datasets is impractical. In-context
learning (ICL) has emerged as a promising paradigm for few-shot image
classification (FSIC), enabling models to generalize across domains without
gradient-based adaptation. However, prior work has largely overlooked a
critical component of ICL-based FSIC pipelines: the role of image embeddings.
In this work, we present PictSure, an ICL framework that places the embedding
model -- its architecture, pretraining, and training dynamics -- at the center
of analysis. We systematically examine the effects of different visual encoder
types, pretraining objectives, and fine-tuning strategies on downstream FSIC
performance. Our experiments show that the training success and the
out-of-domain performance are highly dependent on how the embedding models are
pretrained. Consequently, PictSure manages to outperform existing ICL-based
FSIC models on out-of-domain benchmarks that differ significantly from the
training distribution, while maintaining comparable results on in-domain tasks.
Code can be found at https://github.com/PictSure/pictsure-library.