PictSure: O Pré-treinamento de Embeddings é Crucial para Classificadores de Imagens com Aprendizado em Contexto

Resumo

A construção de modelos de classificação de imagens continua sendo trabalhosa em domínios com escassez de dados, onde a coleta de grandes conjuntos de dados rotulados é impraticável. O aprendizado em contexto (ICL, do inglês *In-Context Learning*) surgiu como um paradigma promissor para a classificação de imagens com poucos exemplos (FSIC, do inglês *Few-Shot Image Classification*), permitindo que os modelos generalizem entre domínios sem adaptação baseada em gradientes. No entanto, trabalhos anteriores negligenciaram em grande parte um componente crítico dos pipelines de FSIC baseados em ICL: o papel dos embeddings de imagens. Neste trabalho, apresentamos o PictSure, um framework de ICL que coloca o modelo de embedding — sua arquitetura, pré-treinamento e dinâmica de treinamento — no centro da análise. Examinamos sistematicamente os efeitos de diferentes tipos de codificadores visuais, objetivos de pré-treinamento e estratégias de ajuste fino no desempenho de FSIC em tarefas subsequentes. Nossos experimentos mostram que o sucesso do treinamento e o desempenho fora do domínio dependem fortemente de como os modelos de embedding são pré-treinados. Consequentemente, o PictSure consegue superar os modelos existentes de FSIC baseados em ICL em benchmarks fora do domínio que diferem significativamente da distribuição de treinamento, mantendo resultados comparáveis em tarefas dentro do domínio. O código pode ser encontrado em https://github.com/PictSure/pictsure-library.

English

Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.

PictSure: O Pré-treinamento de Embeddings é Crucial para Classificadores de Imagens com Aprendizado em Contexto

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Resumo

Support