PictSure : L'importance du pré-entraînement des embeddings pour les classificateurs d'images par apprentissage en contexte
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
June 16, 2025
Auteurs: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI
Résumé
La construction de modèles de classification d'images reste laborieuse dans les domaines où les données sont rares, où la collecte de grands ensembles de données étiquetées est impraticable. L'apprentissage en contexte (ICL) est apparu comme un paradigme prometteur pour la classification d'images en few-shot (FSIC), permettant aux modèles de généraliser à travers différents domaines sans adaptation basée sur le gradient. Cependant, les travaux antérieurs ont largement négligé un composant critique des pipelines de FSIC basés sur l'ICL : le rôle des embeddings d'images. Dans ce travail, nous présentons PictSure, un cadre ICL qui place le modèle d'embedding — son architecture, son prétraitement et sa dynamique d'apprentissage — au centre de l'analyse. Nous examinons systématiquement les effets de différents types d'encodeurs visuels, d'objectifs de prétraitement et de stratégies de fine-tuning sur la performance en aval de la FSIC. Nos expériences montrent que le succès de l'entraînement et la performance hors domaine dépendent fortement de la manière dont les modèles d'embedding sont prétraités. Par conséquent, PictSure parvient à surpasser les modèles de FSIC basés sur l'ICL existants sur des benchmarks hors domaine qui diffèrent significativement de la distribution d'entraînement, tout en maintenant des résultats comparables sur les tâches en domaine. Le code est disponible à l'adresse suivante : https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce
domains, where collecting large labeled datasets is impractical. In-context
learning (ICL) has emerged as a promising paradigm for few-shot image
classification (FSIC), enabling models to generalize across domains without
gradient-based adaptation. However, prior work has largely overlooked a
critical component of ICL-based FSIC pipelines: the role of image embeddings.
In this work, we present PictSure, an ICL framework that places the embedding
model -- its architecture, pretraining, and training dynamics -- at the center
of analysis. We systematically examine the effects of different visual encoder
types, pretraining objectives, and fine-tuning strategies on downstream FSIC
performance. Our experiments show that the training success and the
out-of-domain performance are highly dependent on how the embedding models are
pretrained. Consequently, PictSure manages to outperform existing ICL-based
FSIC models on out-of-domain benchmarks that differ significantly from the
training distribution, while maintaining comparable results on in-domain tasks.
Code can be found at https://github.com/PictSure/pictsure-library.