PictSure: Важность предварительного обучения эмбеддингов для классификаторов изображений с обучением в контексте

Аннотация

Создание моделей классификации изображений остается трудоемким процессом в областях с ограниченными данными, где сбор больших размеченных наборов данных непрактичен. Обучение в контексте (In-Context Learning, ICL) стало перспективной парадигмой для классификации изображений с малым количеством примеров (Few-Shot Image Classification, FSIC), позволяя моделям обобщать знания между доменами без градиентной адаптации. Однако предыдущие работы в значительной степени упускали из виду критически важный компонент конвейеров FSIC на основе ICL: роль эмбеддингов изображений. В данной работе мы представляем PictSure — фреймворк ICL, который ставит модель эмбеддингов — ее архитектуру, предварительное обучение и динамику обучения — в центр анализа. Мы систематически исследуем влияние различных типов визуальных кодировщиков, целей предварительного обучения и стратегий тонкой настройки на производительность FSIC. Наши эксперименты показывают, что успех обучения и производительность вне домена сильно зависят от того, как модели эмбеддингов были предварительно обучены. В результате PictSure превосходит существующие модели FSIC на основе ICL на тестах вне домена, значительно отличающихся от распределения обучения, сохраняя при этом сопоставимые результаты на задачах внутри домена. Код доступен по адресу: https://github.com/PictSure/pictsure-library.

English

Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.

PictSure: Важность предварительного обучения эмбеддингов для классификаторов изображений с обучением в контексте

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Аннотация

Support