Selección Creativa Automática con Emparejamiento Cross-Modal

Resumen

Los desarrolladores de aplicaciones promocionan sus Apps creando páginas de producto con imágenes de la aplicación y realizando pujas por términos de búsqueda. Por lo tanto, es crucial que las imágenes de las Apps sean altamente relevantes con los términos de búsqueda. Las soluciones a este problema requieren un modelo de emparejamiento imagen-texto para predecir la calidad de la coincidencia entre la imagen seleccionada y los términos de búsqueda. En este trabajo, presentamos un enfoque novedoso para emparejar una imagen de App con términos de búsqueda basado en el ajuste fino de un modelo LXMERT preentrenado. Demostramos que, en comparación con el modelo CLIP y una línea de base que utiliza un modelo Transformer para los términos de búsqueda y un modelo ResNet para las imágenes, mejoramos significativamente la precisión del emparejamiento. Evaluamos nuestro enfoque utilizando dos conjuntos de etiquetas: pares (imagen, término de búsqueda) asociados por el anunciante para una aplicación dada, y calificaciones humanas sobre la relevancia entre pares (imagen, término de búsqueda). Nuestro enfoque alcanza un puntaje AUC de 0.96 para la verdad de campo asociada al anunciante, superando la línea de base transformer+ResNet y el modelo CLIP ajustado en un 8% y 14%, respectivamente. Para la verdad de campo etiquetada por humanos, nuestro enfoque alcanza un puntaje AUC de 0.95, superando la línea de base transformer+ResNet y el modelo CLIP ajustado en un 16% y 17%, respectivamente.

English

Application developers advertise their Apps by creating product pages with App images, and bidding on search terms. It is then crucial for App images to be highly relevant with the search terms. Solutions to this problem require an image-text matching model to predict the quality of the match between the chosen image and the search terms. In this work, we present a novel approach to matching an App image to search terms based on fine-tuning a pre-trained LXMERT model. We show that compared to the CLIP model and a baseline using a Transformer model for search terms, and a ResNet model for images, we significantly improve the matching accuracy. We evaluate our approach using two sets of labels: advertiser associated (image, search term) pairs for a given application, and human ratings for the relevance between (image, search term) pairs. Our approach achieves 0.96 AUC score for advertiser associated ground truth, outperforming the transformer+ResNet baseline and the fine-tuned CLIP model by 8% and 14%. For human labeled ground truth, our approach achieves 0.95 AUC score, outperforming the transformer+ResNet baseline and the fine-tuned CLIP model by 16% and 17%.

Selección Creativa Automática con Emparejamiento Cross-Modal

Automatic Creative Selection with Cross-Modal Matching

Resumen

Support