크로스 모달 매칭을 통한 자동 창의적 선택
Automatic Creative Selection with Cross-Modal Matching
February 28, 2024
저자: Alex Kim, Jia Huang, Rob Monarch, Jerry Kwac, Anikesh Kamath, Parmeshwar Khurd, Kailash Thiyagarajan, Goodman Gu
cs.AI
초록
애플리케이션 개발자들은 앱 이미지가 포함된 제품 페이지를 생성하고 검색어에 입찰함으로써 자신들의 앱을 광고합니다. 이때 앱 이미지가 검색어와 높은 관련성을 가지는 것이 매우 중요합니다. 이 문제를 해결하기 위해서는 선택된 이미지와 검색어 간의 매칭 품질을 예측할 수 있는 이미지-텍스트 매칭 모델이 필요합니다. 본 연구에서는 사전 학습된 LXMERT 모델을 미세 조정하여 앱 이미지와 검색어를 매칭하는 새로운 접근 방식을 제시합니다. 우리는 검색어를 위해 Transformer 모델을, 이미지를 위해 ResNet 모델을 사용한 베이스라인 및 CLIP 모델과 비교하여 매칭 정확도를 크게 향상시킴을 보여줍니다. 우리는 두 가지 라벨 세트를 사용하여 접근 방식을 평가합니다: 주어진 애플리케이션에 대한 광고주가 연관시킨 (이미지, 검색어) 쌍과 (이미지, 검색어) 쌍 간의 관련성에 대한 인간 평가입니다. 우리의 접근 방식은 광고주가 연관시킨 실측 데이터에 대해 0.96 AUC 점수를 달성하여 Transformer+ResNet 베이스라인보다 8%, 미세 조정된 CLIP 모델보다 14% 우수한 성능을 보였습니다. 인간이 라벨링한 실측 데이터에 대해서는 0.95 AUC 점수를 달성하여 Transformer+ResNet 베이스라인보다 16%, 미세 조정된 CLIP 모델보다 17% 우수한 성능을 보였습니다.
English
Application developers advertise their Apps by creating product pages with
App images, and bidding on search terms. It is then crucial for App images to
be highly relevant with the search terms. Solutions to this problem require an
image-text matching model to predict the quality of the match between the
chosen image and the search terms. In this work, we present a novel approach to
matching an App image to search terms based on fine-tuning a pre-trained LXMERT
model. We show that compared to the CLIP model and a baseline using a
Transformer model for search terms, and a ResNet model for images, we
significantly improve the matching accuracy. We evaluate our approach using two
sets of labels: advertiser associated (image, search term) pairs for a given
application, and human ratings for the relevance between (image, search term)
pairs. Our approach achieves 0.96 AUC score for advertiser associated ground
truth, outperforming the transformer+ResNet baseline and the fine-tuned CLIP
model by 8% and 14%. For human labeled ground truth, our approach achieves 0.95
AUC score, outperforming the transformer+ResNet baseline and the fine-tuned
CLIP model by 16% and 17%.Summary
AI-Generated Summary