Hiformer: Heterogene Feature-interacties Leren met Transformers voor Aanbevelingssystemen
Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems
November 10, 2023
Auteurs: Huan Gui, Ruoxi Wang, Ke Yin, Long Jin, Maciej Kula, Taibai Xu, Lichan Hong, Ed H. Chi
cs.AI
Samenvatting
Het leren van feature-interacties vormt de cruciale ruggengraat voor het bouwen van aanbevelingssystemen. In web-schaal toepassingen is het leren van feature-interacties extreem uitdagend vanwege de schaarse en grote invoerfeature-ruimte; tegelijkertijd is het handmatig ontwerpen van effectieve feature-interacties onhaalbaar vanwege de exponentiële oplossingsruimte. Wij stellen voor om een Transformer-gebaseerde architectuur met aandachtslagen te benutten om feature-interacties automatisch vast te leggen. Transformer-architecturen hebben groot succes geboekt in vele domeinen, zoals natuurlijke taalverwerking en computervisie. Echter, er is nog niet veel adoptie geweest van de Transformer-architectuur voor het modelleren van feature-interacties in de industrie. Wij streven ernaar deze kloof te dichten. Wij identificeren twee belangrijke uitdagingen voor het toepassen van de standaard Transformer-architectuur op web-schaal aanbevelingssystemen: (1) De Transformer-architectuur slaagt er niet in om de heterogene feature-interacties in de zelf-attentielaag vast te leggen; (2) De servicelatentie van de Transformer-architectuur kan te hoog zijn om te worden ingezet in web-schaal aanbevelingssystemen. Wij stellen eerst een heterogene zelf-attentielaag voor, wat een eenvoudige maar effectieve aanpassing is aan de zelf-attentielaag in de Transformer, om rekening te houden met de heterogeniteit van feature-interacties. Vervolgens introduceren wij Hiformer (Heterogene Interactie Transformer) om de modeluitdrukkingskracht verder te verbeteren. Met low-rank benadering en modelpruning geniet Hiformer van snelle inferentie voor online implementatie. Uitgebreide offline experimentresultaten bevestigen de effectiviteit en efficiëntie van het Hiformer-model. Wij hebben het Hiformer-model succesvol geïmplementeerd in een real-world grootschalig app-rankingmodel op Google Play, met een significante verbetering in belangrijke betrokkenheidsmetrieken (tot +2,66\%).
English
Learning feature interaction is the critical backbone to building recommender
systems. In web-scale applications, learning feature interaction is extremely
challenging due to the sparse and large input feature space; meanwhile,
manually crafting effective feature interactions is infeasible because of the
exponential solution space. We propose to leverage a Transformer-based
architecture with attention layers to automatically capture feature
interactions. Transformer architectures have witnessed great success in many
domains, such as natural language processing and computer vision. However,
there has not been much adoption of Transformer architecture for feature
interaction modeling in industry. We aim at closing the gap. We identify two
key challenges for applying the vanilla Transformer architecture to web-scale
recommender systems: (1) Transformer architecture fails to capture the
heterogeneous feature interactions in the self-attention layer; (2) The serving
latency of Transformer architecture might be too high to be deployed in
web-scale recommender systems. We first propose a heterogeneous self-attention
layer, which is a simple yet effective modification to the self-attention layer
in Transformer, to take into account the heterogeneity of feature interactions.
We then introduce Hiformer (Heterogeneous
Interaction Transformer) to further improve the model
expressiveness. With low-rank approximation and model pruning, \hiformer enjoys
fast inference for online deployment. Extensive offline experiment results
corroborates the effectiveness and efficiency of the Hiformer model.
We have successfully deployed the Hiformer model to a real world large
scale App ranking model at Google Play, with significant improvement in key
engagement metrics (up to +2.66\%).