더 구체적인 캡션 생성을 위한 이미지 캡셔닝 모델 가이드
Guiding Image Captioning Models Toward More Specific Captions
July 31, 2023
저자: Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
cs.AI
초록
이미지 캡셔닝은 일반적으로 참조 이미지-캡션 쌍의 분포와 일치하는 이미지 캡션을 생성하는 작업으로 공식화됩니다. 그러나 표준 캡셔닝 데이터셋의 참조 캡션은 짧으며, 설명하는 이미지를 고유하게 식별하지 못할 수 있습니다. 이러한 문제는 인터넷에서 수집된 이미지-대체 텍스트 쌍으로 직접 모델을 훈련시킬 때 더욱 악화됩니다. 본 연구에서는 훈련 과정을 최소한으로 변경하면서도 더 구체적인 캡션을 생성할 수 있음을 보여줍니다. 우리는 자동회귀 캡셔닝 모델에 대해 조건부 및 무조건부 캡션 분포를 모두 추정하도록 미세 조정하여 분류자 없는 가이던스를 구현합니다. 디코딩 시 적용되는 가이던스 스케일은 p(캡션|이미지)와 p(이미지|캡션) 사이의 균형을 조절합니다. 표준 그리디 디코딩과 비교하여, 가이던스 스케일 2를 적용한 디코딩은 CLIPScore(0.808 대 0.775)와 같은 참조 없는 메트릭 및 CLIP 임베딩 공간에서의 캡션-이미지 검색 성능(recall@1 44.6% 대 26.5%)을 크게 향상시키지만, 표준 참조 기반 캡셔닝 메트릭(예: CIDEr 78.6 대 126.1)은 악화시킵니다. 또한, 언어 모델을 사용하여 디코딩 과정을 가이드하는 방법을 탐구하여, 분류자 없는 가이던스에서 발생하는 참조 없는 대 참조 기반 캡셔닝 메트릭의 파레토 프론티어를 약간 개선하고, 최소한으로 정제된 웹 데이터로 훈련된 모델에서 생성된 캡션의 품질을 크게 향상시킵니다.
English
Image captioning is conventionally formulated as the task of generating
captions for images that match the distribution of reference image-caption
pairs. However, reference captions in standard captioning datasets are short
and may not uniquely identify the images they describe. These problems are
further exacerbated when models are trained directly on image-alt text pairs
collected from the internet. In this work, we show that it is possible to
generate more specific captions with minimal changes to the training process.
We implement classifier-free guidance for an autoregressive captioning model by
fine-tuning it to estimate both conditional and unconditional distributions
over captions. The guidance scale applied at decoding controls a trade-off
between maximizing p(caption|image) and
p(image|caption). Compared to standard greedy decoding,
decoding with a guidance scale of 2 substantially improves reference-free
metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval
performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens
standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We
further explore the use of language models to guide the decoding process,
obtaining small improvements over the Pareto frontier of reference-free vs.
reference-based captioning metrics that arises from classifier-free guidance,
and substantially improving the quality of captions generated from a model
trained only on minimally curated web data.