ChatPaper.aiChatPaper

PictSure : L'importance du pré-entraînement des embeddings pour les classificateurs d'images par apprentissage en contexte

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

June 16, 2025
Auteurs: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI

Résumé

La construction de modèles de classification d'images reste laborieuse dans les domaines où les données sont rares, où la collecte de grands ensembles de données étiquetées est impraticable. L'apprentissage en contexte (ICL) est apparu comme un paradigme prometteur pour la classification d'images en few-shot (FSIC), permettant aux modèles de généraliser à travers différents domaines sans adaptation basée sur le gradient. Cependant, les travaux antérieurs ont largement négligé un composant critique des pipelines de FSIC basés sur l'ICL : le rôle des embeddings d'images. Dans ce travail, nous présentons PictSure, un cadre ICL qui place le modèle d'embedding — son architecture, son prétraitement et sa dynamique d'apprentissage — au centre de l'analyse. Nous examinons systématiquement les effets de différents types d'encodeurs visuels, d'objectifs de prétraitement et de stratégies de fine-tuning sur la performance en aval de la FSIC. Nos expériences montrent que le succès de l'entraînement et la performance hors domaine dépendent fortement de la manière dont les modèles d'embedding sont prétraités. Par conséquent, PictSure parvient à surpasser les modèles de FSIC basés sur l'ICL existants sur des benchmarks hors domaine qui diffèrent significativement de la distribution d'entraînement, tout en maintenant des résultats comparables sur les tâches en domaine. Le code est disponible à l'adresse suivante : https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.
PDF72June 19, 2025