ChatPaper.aiChatPaper

PictSure: 인-컨텍스트 학습 이미지 분류기를 위한 임베딩 사전 학습의 중요성

PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

June 16, 2025
저자: Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop
cs.AI

초록

대규모 레이블 데이터셋 수집이 현실적으로 어려운 데이터 부족 영역에서 이미지 분류 모델 구축은 여전히 번거로운 작업이다. 소수 샷 이미지 분류(FSIC)를 위한 유망한 패러다임으로 등장한 인컨텍스트 학습(ICL)은 그래디언트 기반 적응 없이도 모델이 다양한 도메인 간에 일반화할 수 있게 한다. 그러나 기존 연구는 ICL 기반 FSIC 파이프라인의 중요한 구성 요소인 이미지 임베딩의 역할을 크게 간과해 왔다. 본 연구에서는 임베딩 모델의 아키텍처, 사전 학습, 그리고 학습 역학을 분석의 중심에 두는 ICL 프레임워크인 PictSure를 제안한다. 우리는 다양한 시각적 인코더 유형, 사전 학습 목표, 그리고 미세 조정 전략이 하류 FSIC 성능에 미치는 영향을 체계적으로 조사한다. 실험 결과, 임베딩 모델의 사전 학습 방식이 학습 성공과 도메인 외 성능에 크게 의존한다는 것을 보여준다. 결과적으로 PictSure는 학습 분포와 크게 다른 도메인 외 벤치마크에서 기존 ICL 기반 FSIC 모델을 능가하는 동시에 도메인 내 작업에서도 비슷한 결과를 유지한다. 코드는 https://github.com/PictSure/pictsure-library에서 확인할 수 있다.
English
Building image classification models remains cumbersome in data-scarce domains, where collecting large labeled datasets is impractical. In-context learning (ICL) has emerged as a promising paradigm for few-shot image classification (FSIC), enabling models to generalize across domains without gradient-based adaptation. However, prior work has largely overlooked a critical component of ICL-based FSIC pipelines: the role of image embeddings. In this work, we present PictSure, an ICL framework that places the embedding model -- its architecture, pretraining, and training dynamics -- at the center of analysis. We systematically examine the effects of different visual encoder types, pretraining objectives, and fine-tuning strategies on downstream FSIC performance. Our experiments show that the training success and the out-of-domain performance are highly dependent on how the embedding models are pretrained. Consequently, PictSure manages to outperform existing ICL-based FSIC models on out-of-domain benchmarks that differ significantly from the training distribution, while maintaining comparable results on in-domain tasks. Code can be found at https://github.com/PictSure/pictsure-library.
PDF72June 19, 2025