PictSure: Важность предварительного обучения эмбеддингов для классификаторов изображений с обучением в контексте
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
June 16, 2025
Авторы: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI
Аннотация
Создание моделей классификации изображений остается трудоемким процессом в областях с ограниченными данными, где сбор больших размеченных наборов данных непрактичен. Обучение в контексте (In-Context Learning, ICL) стало перспективной парадигмой для классификации изображений с малым количеством примеров (Few-Shot Image Classification, FSIC), позволяя моделям обобщать знания между доменами без градиентной адаптации. Однако предыдущие работы в значительной степени упускали из виду критически важный компонент конвейеров FSIC на основе ICL: роль эмбеддингов изображений. В данной работе мы представляем PictSure — фреймворк ICL, который ставит модель эмбеддингов — ее архитектуру, предварительное обучение и динамику обучения — в центр анализа. Мы систематически исследуем влияние различных типов визуальных кодировщиков, целей предварительного обучения и стратегий тонкой настройки на производительность FSIC. Наши эксперименты показывают, что успех обучения и производительность вне домена сильно зависят от того, как модели эмбеддингов были предварительно обучены. В результате PictSure превосходит существующие модели FSIC на основе ICL на тестах вне домена, значительно отличающихся от распределения обучения, сохраняя при этом сопоставимые результаты на задачах внутри домена. Код доступен по адресу: https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce
domains, where collecting large labeled datasets is impractical. In-context
learning (ICL) has emerged as a promising paradigm for few-shot image
classification (FSIC), enabling models to generalize across domains without
gradient-based adaptation. However, prior work has largely overlooked a
critical component of ICL-based FSIC pipelines: the role of image embeddings.
In this work, we present PictSure, an ICL framework that places the embedding
model -- its architecture, pretraining, and training dynamics -- at the center
of analysis. We systematically examine the effects of different visual encoder
types, pretraining objectives, and fine-tuning strategies on downstream FSIC
performance. Our experiments show that the training success and the
out-of-domain performance are highly dependent on how the embedding models are
pretrained. Consequently, PictSure manages to outperform existing ICL-based
FSIC models on out-of-domain benchmarks that differ significantly from the
training distribution, while maintaining comparable results on in-domain tasks.
Code can be found at https://github.com/PictSure/pictsure-library.