PictSure: La Preentrenamiento de Incrustaciones es Fundamental para los Clasificadores de Imágenes con Aprendizaje en Contexto
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers
June 16, 2025
Autores: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI
Resumen
La construcción de modelos de clasificación de imágenes sigue siendo engorrosa en dominios con escasez de datos, donde la recopilación de grandes conjuntos de datos etiquetados resulta poco práctica. El aprendizaje en contexto (ICL, por sus siglas en inglés) ha surgido como un paradigma prometedor para la clasificación de imágenes con pocos ejemplos (FSIC, por sus siglas en inglés), permitiendo que los modelos generalicen entre dominios sin necesidad de adaptación basada en gradientes. Sin embargo, trabajos previos han pasado por alto un componente crítico de las pipelines de FSIC basadas en ICL: el papel de los embeddings de imágenes. En este trabajo, presentamos PictSure, un marco de ICL que sitúa el modelo de embedding —su arquitectura, preentrenamiento y dinámica de entrenamiento— en el centro del análisis. Examinamos sistemáticamente los efectos de diferentes tipos de codificadores visuales, objetivos de preentrenamiento y estrategias de ajuste fino en el rendimiento de FSIC en tareas posteriores. Nuestros experimentos muestran que el éxito del entrenamiento y el rendimiento fuera del dominio dependen en gran medida de cómo se preentrenan los modelos de embedding. En consecuencia, PictSure logra superar a los modelos existentes de FSIC basados en ICL en benchmarks fuera del dominio que difieren significativamente de la distribución de entrenamiento, manteniendo resultados comparables en tareas dentro del dominio. El código está disponible en https://github.com/PictSure/pictsure-library.
English
Building image classification models remains cumbersome in data-scarce
domains, where collecting large labeled datasets is impractical. In-context
learning (ICL) has emerged as a promising paradigm for few-shot image
classification (FSIC), enabling models to generalize across domains without
gradient-based adaptation. However, prior work has largely overlooked a
critical component of ICL-based FSIC pipelines: the role of image embeddings.
In this work, we present PictSure, an ICL framework that places the embedding
model -- its architecture, pretraining, and training dynamics -- at the center
of analysis. We systematically examine the effects of different visual encoder
types, pretraining objectives, and fine-tuning strategies on downstream FSIC
performance. Our experiments show that the training success and the
out-of-domain performance are highly dependent on how the embedding models are
pretrained. Consequently, PictSure manages to outperform existing ICL-based
FSIC models on out-of-domain benchmarks that differ significantly from the
training distribution, while maintaining comparable results on in-domain tasks.
Code can be found at https://github.com/PictSure/pictsure-library.