PictSure: O Pré-treinamento de Embeddings é Crucial para Classificadores de Imagens com Aprendizado em Contexto
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
June 16, 2025
Autores: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI
Resumo
A construção de modelos de classificação de imagens continua sendo trabalhosa em domínios com escassez de dados, onde a coleta de grandes conjuntos de dados rotulados é impraticável. O aprendizado em contexto (ICL, do inglês *In-Context Learning*) surgiu como um paradigma promissor para a classificação de imagens com poucos exemplos (FSIC, do inglês *Few-Shot Image Classification*), permitindo que os modelos generalizem entre domínios sem adaptação baseada em gradientes. No entanto, trabalhos anteriores negligenciaram em grande parte um componente crítico dos pipelines de FSIC baseados em ICL: o papel dos embeddings de imagens. Neste trabalho, apresentamos o PictSure, um framework de ICL que coloca o modelo de embedding — sua arquitetura, pré-treinamento e dinâmica de treinamento — no centro da análise. Examinamos sistematicamente os efeitos de diferentes tipos de codificadores visuais, objetivos de pré-treinamento e estratégias de ajuste fino no desempenho de FSIC em tarefas subsequentes. Nossos experimentos mostram que o sucesso do treinamento e o desempenho fora do domínio dependem fortemente de como os modelos de embedding são pré-treinados. Consequentemente, o PictSure consegue superar os modelos existentes de FSIC baseados em ICL em benchmarks fora do domínio que diferem significativamente da distribuição de treinamento, mantendo resultados comparáveis em tarefas dentro do domínio. O código pode ser encontrado em https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce
domains, where collecting large labeled datasets is impractical. In-context
learning (ICL) has emerged as a promising paradigm for few-shot image
classification (FSIC), enabling models to generalize across domains without
gradient-based adaptation. However, prior work has largely overlooked a
critical component of ICL-based FSIC pipelines: the role of image embeddings.
In this work, we present PictSure, an ICL framework that places the embedding
model -- its architecture, pretraining, and training dynamics -- at the center
of analysis. We systematically examine the effects of different visual encoder
types, pretraining objectives, and fine-tuning strategies on downstream FSIC
performance. Our experiments show that the training success and the
out-of-domain performance are highly dependent on how the embedding models are
pretrained. Consequently, PictSure manages to outperform existing ICL-based
FSIC models on out-of-domain benchmarks that differ significantly from the
training distribution, while maintaining comparable results on in-domain tasks.
Code can be found at https://github.com/PictSure/pictsure-library.