Selección Creativa Automática con Emparejamiento Cross-Modal
Automatic Creative Selection with Cross-Modal Matching
February 28, 2024
Autores: Alex Kim, Jia Huang, Rob Monarch, Jerry Kwac, Anikesh Kamath, Parmeshwar Khurd, Kailash Thiyagarajan, Goodman Gu
cs.AI
Resumen
Los desarrolladores de aplicaciones promocionan sus Apps creando páginas de producto con imágenes de la aplicación y realizando pujas por términos de búsqueda. Por lo tanto, es crucial que las imágenes de las Apps sean altamente relevantes con los términos de búsqueda. Las soluciones a este problema requieren un modelo de emparejamiento imagen-texto para predecir la calidad de la coincidencia entre la imagen seleccionada y los términos de búsqueda. En este trabajo, presentamos un enfoque novedoso para emparejar una imagen de App con términos de búsqueda basado en el ajuste fino de un modelo LXMERT preentrenado. Demostramos que, en comparación con el modelo CLIP y una línea de base que utiliza un modelo Transformer para los términos de búsqueda y un modelo ResNet para las imágenes, mejoramos significativamente la precisión del emparejamiento. Evaluamos nuestro enfoque utilizando dos conjuntos de etiquetas: pares (imagen, término de búsqueda) asociados por el anunciante para una aplicación dada, y calificaciones humanas sobre la relevancia entre pares (imagen, término de búsqueda). Nuestro enfoque alcanza un puntaje AUC de 0.96 para la verdad de campo asociada al anunciante, superando la línea de base transformer+ResNet y el modelo CLIP ajustado en un 8% y 14%, respectivamente. Para la verdad de campo etiquetada por humanos, nuestro enfoque alcanza un puntaje AUC de 0.95, superando la línea de base transformer+ResNet y el modelo CLIP ajustado en un 16% y 17%, respectivamente.
English
Application developers advertise their Apps by creating product pages with
App images, and bidding on search terms. It is then crucial for App images to
be highly relevant with the search terms. Solutions to this problem require an
image-text matching model to predict the quality of the match between the
chosen image and the search terms. In this work, we present a novel approach to
matching an App image to search terms based on fine-tuning a pre-trained LXMERT
model. We show that compared to the CLIP model and a baseline using a
Transformer model for search terms, and a ResNet model for images, we
significantly improve the matching accuracy. We evaluate our approach using two
sets of labels: advertiser associated (image, search term) pairs for a given
application, and human ratings for the relevance between (image, search term)
pairs. Our approach achieves 0.96 AUC score for advertiser associated ground
truth, outperforming the transformer+ResNet baseline and the fine-tuned CLIP
model by 8% and 14%. For human labeled ground truth, our approach achieves 0.95
AUC score, outperforming the transformer+ResNet baseline and the fine-tuned
CLIP model by 16% and 17%.Summary
AI-Generated Summary