PictSure: La Preentrenamiento de Incrustaciones es Fundamental para los Clasificadores de Imágenes con Aprendizaje en Contexto

Resumen

La construcción de modelos de clasificación de imágenes sigue siendo engorrosa en dominios con escasez de datos, donde la recopilación de grandes conjuntos de datos etiquetados resulta poco práctica. El aprendizaje en contexto (ICL, por sus siglas en inglés) ha surgido como un paradigma prometedor para la clasificación de imágenes con pocos ejemplos (FSIC, por sus siglas en inglés), permitiendo que los modelos generalicen entre dominios sin necesidad de adaptación basada en gradientes. Sin embargo, trabajos previos han pasado por alto un componente crítico de las pipelines de FSIC basadas en ICL: el papel de los embeddings de imágenes. En este trabajo, presentamos PictSure, un marco de ICL que sitúa el modelo de embedding —su arquitectura, preentrenamiento y dinámica de entrenamiento— en el centro del análisis. Examinamos sistemáticamente los efectos de diferentes tipos de codificadores visuales, objetivos de preentrenamiento y estrategias de ajuste fino en el rendimiento de FSIC en tareas posteriores. Nuestros experimentos muestran que el éxito del entrenamiento y el rendimiento fuera del dominio dependen en gran medida de cómo se preentrenan los modelos de embedding. En consecuencia, PictSure logra superar a los modelos existentes de FSIC basados en ICL en benchmarks fuera del dominio que difieren significativamente de la distribución de entrenamiento, manteniendo resultados comparables en tareas dentro del dominio. El código está disponible en https://github.com/PictSure/pictsure-library.

English

Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.

PictSure: La Preentrenamiento de Incrustaciones es Fundamental para los Clasificadores de Imágenes con Aprendizaje en Contexto

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Resumen

Support