ChatPaper.aiChatPaper

PictSure: L'Addestramento Preliminare degli Embedding è Cruciale per i Classificatori di Immagini con Apprendimento In-Contesto

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

June 16, 2025
Autori: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI

Abstract

La costruzione di modelli di classificazione delle immagini rimane complessa in domini con scarsità di dati, dove la raccolta di grandi dataset etichettati risulta impraticabile. L'apprendimento in contesto (In-Context Learning, ICL) è emerso come un paradigma promettente per la classificazione di immagini con pochi esempi (Few-Shot Image Classification, FSIC), consentendo ai modelli di generalizzare tra domini senza adattamento basato su gradienti. Tuttavia, i lavori precedenti hanno largamente trascurato un componente critico delle pipeline FSIC basate su ICL: il ruolo degli embedding di immagini. In questo lavoro, presentiamo PictSure, un framework ICL che pone il modello di embedding — la sua architettura, il pretraining e le dinamiche di addestramento — al centro dell'analisi. Esaminiamo sistematicamente gli effetti di diversi tipi di encoder visivi, obiettivi di pretraining e strategie di fine-tuning sulle prestazioni FSIC a valle. I nostri esperimenti dimostrano che il successo dell'addestramento e le prestazioni fuori dominio dipendono fortemente da come i modelli di embedding sono stati preaddestrati. Di conseguenza, PictSure riesce a superare i modelli FSIC basati su ICL esistenti su benchmark fuori dominio che differiscono significativamente dalla distribuzione di addestramento, mantenendo risultati comparabili su task in dominio. Il codice è disponibile all'indirizzo https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.
PDF72June 19, 2025