PictSure: Pretraining von Embeddings ist entscheidend für In-Context-Learning-Bildklassifikatoren
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
June 16, 2025
Autoren: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI
Zusammenfassung
Der Aufbau von Bildklassifizierungsmodellen bleibt in datenarmen Domänen mühsam, wo das Sammeln großer annotierter Datensätze unpraktisch ist. In-Context-Lernen (ICL) hat sich als vielversprechendes Paradigma für Few-Shot-Bildklassifizierung (FSIC) herausgestellt, das es Modellen ermöglicht, domänenübergreifend zu generalisieren, ohne auf gradientenbasierte Anpassung angewiesen zu sein. Bisherige Arbeiten haben jedoch eine kritische Komponente von ICL-basierten FSIC-Pipelines weitgehend übersehen: die Rolle von Bild-Einbettungen. In dieser Arbeit stellen wir PictSure vor, ein ICL-Framework, das das Einbettungsmodell – seine Architektur, das Vortraining und die Trainingsdynamik – in den Mittelpunkt der Analyse stellt. Wir untersuchen systematisch die Auswirkungen verschiedener Typen von visuellen Encodern, Vortrainingszielen und Feinabstimmungsstrategien auf die nachgelagerte FSIC-Leistung. Unsere Experimente zeigen, dass der Trainingserfolg und die Out-of-Domain-Leistung stark davon abhängen, wie die Einbettungsmodelle vortrainiert werden. Folglich gelingt es PictSure, bestehende ICL-basierte FSIC-Modelle auf Out-of-Domain-Benchmarks, die sich signifikant von der Trainingsverteilung unterscheiden, zu übertreffen, während vergleichbare Ergebnisse bei In-Domain-Aufgaben beibehalten werden. Der Code ist unter https://github.com/PictSure/pictsure-library verfügbar.
English
Building image classification models remains cumbersome in data-scarce
domains, where collecting large labeled datasets is impractical. In-context
learning (ICL) has emerged as a promising paradigm for few-shot image
classification (FSIC), enabling models to generalize across domains without
gradient-based adaptation. However, prior work has largely overlooked a
critical component of ICL-based FSIC pipelines: the role of image embeddings.
In this work, we present PictSure, an ICL framework that places the embedding
model -- its architecture, pretraining, and training dynamics -- at the center
of analysis. We systematically examine the effects of different visual encoder
types, pretraining objectives, and fine-tuning strategies on downstream FSIC
performance. Our experiments show that the training success and the
out-of-domain performance are highly dependent on how the embedding models are
pretrained. Consequently, PictSure manages to outperform existing ICL-based
FSIC models on out-of-domain benchmarks that differ significantly from the
training distribution, while maintaining comparable results on in-domain tasks.
Code can be found at https://github.com/PictSure/pictsure-library.