Hiformer: Aprendizaje de Interacciones de Características Heterogéneas con Transformers para Sistemas de Recomendación

Resumen

El aprendizaje de interacciones entre características es el pilar fundamental para construir sistemas de recomendación. En aplicaciones a escala web, aprender interacciones entre características es extremadamente desafiante debido al espacio de características de entrada grande y disperso; mientras tanto, diseñar manualmente interacciones efectivas entre características es inviable debido al espacio de soluciones exponencial. Proponemos aprovechar una arquitectura basada en Transformer con capas de atención para capturar automáticamente las interacciones entre características. Las arquitecturas Transformer han tenido un gran éxito en muchos dominios, como el procesamiento del lenguaje natural y la visión por computadora. Sin embargo, no ha habido mucha adopción de la arquitectura Transformer para el modelado de interacciones entre características en la industria. Nuestro objetivo es cerrar esta brecha. Identificamos dos desafíos clave para aplicar la arquitectura Transformer estándar a sistemas de recomendación a escala web: (1) La arquitectura Transformer no logra capturar las interacciones heterogéneas entre características en la capa de autoatención; (2) La latencia de servicio de la arquitectura Transformer podría ser demasiado alta para implementarse en sistemas de recomendación a escala web. Primero proponemos una capa de autoatención heterogénea, que es una modificación simple pero efectiva de la capa de autoatención en Transformer, para tener en cuenta la heterogeneidad de las interacciones entre características. Luego presentamos Hiformer (Transformer de Interacciones Heterogéneas) para mejorar aún más la expresividad del modelo. Con aproximación de bajo rango y poda del modelo, Hiformer disfruta de una inferencia rápida para su implementación en línea. Los resultados extensos de experimentos fuera de línea corroboran la efectividad y eficiencia del modelo Hiformer. Hemos implementado con éxito el modelo Hiformer en un modelo de clasificación de aplicaciones a gran escala en Google Play, con una mejora significativa en las métricas clave de participación (hasta +2.66\%).

English

Learning feature interaction is the critical backbone to building recommender systems. In web-scale applications, learning feature interaction is extremely challenging due to the sparse and large input feature space; meanwhile, manually crafting effective feature interactions is infeasible because of the exponential solution space. We propose to leverage a Transformer-based architecture with attention layers to automatically capture feature interactions. Transformer architectures have witnessed great success in many domains, such as natural language processing and computer vision. However, there has not been much adoption of Transformer architecture for feature interaction modeling in industry. We aim at closing the gap. We identify two key challenges for applying the vanilla Transformer architecture to web-scale recommender systems: (1) Transformer architecture fails to capture the heterogeneous feature interactions in the self-attention layer; (2) The serving latency of Transformer architecture might be too high to be deployed in web-scale recommender systems. We first propose a heterogeneous self-attention layer, which is a simple yet effective modification to the self-attention layer in Transformer, to take into account the heterogeneity of feature interactions. We then introduce Hiformer (Heterogeneous Interaction Transformer) to further improve the model expressiveness. With low-rank approximation and model pruning, \hiformer enjoys fast inference for online deployment. Extensive offline experiment results corroborates the effectiveness and efficiency of the Hiformer model. We have successfully deployed the Hiformer model to a real world large scale App ranking model at Google Play, with significant improvement in key engagement metrics (up to +2.66\%).

Hiformer: Aprendizaje de Interacciones de Características Heterogéneas con Transformers para Sistemas de Recomendación

Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems

Resumen

Support