SITTA: 이미지 캡션 생성을 위한 시맨틱 이미지-텍스트 정렬
SITTA: A Semantic Image-Text Alignment for Image Captioning
July 10, 2023
저자: Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter
cs.AI
초록
이미지의 텍스트적 및 의미적 이해는 적절한 캡션 생성을 위해 필수적입니다. 이러한 이해는 객체 탐지, 객체 간 관계 모델링, 장면의 의미 평가, 그리고 마지막으로 추출된 지식을 언어 공간으로 표현하는 과정을 필요로 합니다. 풍부한 언어 능력을 달성하면서도 좋은 이미지-언어 매핑을 보장하기 위해, 사전 학습된 언어 모델(LM)은 이미지 입력을 허용하는 사전 학습된 다중 모달(이미지-텍스트) 모델에 조건화되었습니다. 이는 다중 모달 모델의 이미지 표현과 생성적 LM의 언어 표현 간의 정렬을 요구합니다. 그러나 다중 모달 모델의 비전 인코더가 감지한 의미를 LM으로 어떻게 최적으로 전달할지에 대해서는 명확하지 않습니다. 우리는 두 사전 학습된 모델의 임베딩 공간 간에 의미를 성공적으로 전달하는 선형 매핑을 구성하는 두 가지 새로운 방법을 소개합니다. 첫 번째 방법은 다중 모달 언어 인코더의 임베딩 공간을 사전 학습된 LM의 임베딩 공간과 토큰 대응을 통해 정렬합니다. 두 번째 방법은 이미지-텍스트 쌍으로 구성된 추가 데이터를 활용하여 비전에서 언어 공간으로 직접 매핑을 구성합니다. 우리의 의미 매핑을 사용하여, 우리는 그래디언트 정보에 접근하지 않고도 LM을 위한 이미지 캡션 생성을 가능하게 합니다. 다양한 데이터 소스를 사용하여 MS-COCO 및 Flickr30k 데이터셋에서 강력한 캡션 성능을 달성합니다. 제한된 데이터 상황에서도, 우리의 방법은 다른 제로샷 및 심지어 미세 조정된 경쟁자들의 성능을 부분적으로 초과합니다. 우리의 절제 연구는 단지 2억 5천만 개의 파라미터 규모의 LM도 우리의 의미 매핑을 사용하여 괜찮은 캡션을 생성할 수 있음을 보여줍니다. 우리의 접근 방식은 계산 자원이 제한된 기관들에게 이미지 캡션 생성을 더욱 접근 가능하게 만듭니다.
English
Textual and semantic comprehension of images is essential for generating
proper captions. The comprehension requires detection of objects, modeling of
relations between them, an assessment of the semantics of the scene and,
finally, representing the extracted knowledge in a language space. To achieve
rich language capabilities while ensuring good image-language mappings,
pretrained language models (LMs) were conditioned on pretrained multi-modal
(image-text) models that allow for image inputs. This requires an alignment of
the image representation of the multi-modal model with the language
representations of a generative LM. However, it is not clear how to best
transfer semantics detected by the vision encoder of the multi-modal model to
the LM. We introduce two novel ways of constructing a linear mapping that
successfully transfers semantics between the embedding spaces of the two
pretrained models. The first aligns the embedding space of the multi-modal
language encoder with the embedding space of the pretrained LM via token
correspondences. The latter leverages additional data that consists of
image-text pairs to construct the mapping directly from vision to language
space. Using our semantic mappings, we unlock image captioning for LMs without
access to gradient information. By using different sources of data we achieve
strong captioning performance on MS-COCO and Flickr30k datasets. Even in the
face of limited data, our method partly exceeds the performance of other
zero-shot and even finetuned competitors. Our ablation studies show that even
LMs at a scale of merely 250M parameters can generate decent captions employing
our semantic mappings. Our approach makes image captioning more accessible for
institutions with restricted computational resources.