Hiformer: Aprendizado de Interações de Características Heterogêneas com Transformers para Sistemas de Recomendação
Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems
November 10, 2023
Autores: Huan Gui, Ruoxi Wang, Ke Yin, Long Jin, Maciej Kula, Taibai Xu, Lichan Hong, Ed H. Chi
cs.AI
Resumo
A aprendizagem de interações entre características é o pilar fundamental para a construção de sistemas de recomendação. Em aplicações de escala web, aprender essas interações é extremamente desafiador devido ao espaço esparso e amplo das características de entrada; além disso, a criação manual de interações eficazes é inviável devido ao espaço exponencial de soluções. Propomos utilizar uma arquitetura baseada em Transformer com camadas de atenção para capturar automaticamente as interações entre características. As arquiteturas Transformer têm obtido grande sucesso em diversos domínios, como processamento de linguagem natural e visão computacional. No entanto, ainda há pouca adoção da arquitetura Transformer para modelagem de interações de características na indústria. Nosso objetivo é preencher essa lacuna. Identificamos dois desafios principais para aplicar a arquitetura Transformer padrão em sistemas de recomendação de escala web: (1) a arquitetura Transformer falha em capturar as interações heterogêneas de características na camada de autoatenção; (2) a latência de serviço da arquitetura Transformer pode ser muito alta para ser implantada em sistemas de recomendação de escala web. Primeiro, propomos uma camada de autoatenção heterogênea, uma modificação simples, porém eficaz, na camada de autoatenção do Transformer, para considerar a heterogeneidade das interações de características. Em seguida, introduzimos o Hiformer (Transformer de Interação Heterogênea) para melhorar ainda mais a expressividade do modelo. Com aproximação de baixo posto e poda de modelo, o Hiformer oferece inferência rápida para implantação online. Resultados extensivos de experimentos offline corroboram a eficácia e eficiência do modelo Hiformer. Implantamos com sucesso o modelo Hiformer em um sistema de classificação de aplicativos em larga escala do Google Play, com melhorias significativas nas métricas-chave de engajamento (até +2,66%).
English
Learning feature interaction is the critical backbone to building recommender
systems. In web-scale applications, learning feature interaction is extremely
challenging due to the sparse and large input feature space; meanwhile,
manually crafting effective feature interactions is infeasible because of the
exponential solution space. We propose to leverage a Transformer-based
architecture with attention layers to automatically capture feature
interactions. Transformer architectures have witnessed great success in many
domains, such as natural language processing and computer vision. However,
there has not been much adoption of Transformer architecture for feature
interaction modeling in industry. We aim at closing the gap. We identify two
key challenges for applying the vanilla Transformer architecture to web-scale
recommender systems: (1) Transformer architecture fails to capture the
heterogeneous feature interactions in the self-attention layer; (2) The serving
latency of Transformer architecture might be too high to be deployed in
web-scale recommender systems. We first propose a heterogeneous self-attention
layer, which is a simple yet effective modification to the self-attention layer
in Transformer, to take into account the heterogeneity of feature interactions.
We then introduce Hiformer (Heterogeneous
Interaction Transformer) to further improve the model
expressiveness. With low-rank approximation and model pruning, \hiformer enjoys
fast inference for online deployment. Extensive offline experiment results
corroborates the effectiveness and efficiency of the Hiformer model.
We have successfully deployed the Hiformer model to a real world large
scale App ranking model at Google Play, with significant improvement in key
engagement metrics (up to +2.66\%).