Hiformer: Heterogene Merkmalsinteraktionslernen mit Transformern für Empfehlungssysteme
Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems
November 10, 2023
Autoren: Huan Gui, Ruoxi Wang, Ke Yin, Long Jin, Maciej Kula, Taibai Xu, Lichan Hong, Ed H. Chi
cs.AI
Zusammenfassung
Das Erlernen von Feature-Interaktionen ist das entscheidende Rückgrat für den Aufbau von Empfehlungssystemen. In Web-Scale-Anwendungen ist das Erlernen von Feature-Interaktionen äußerst herausfordernd, da der Eingabe-Feature-Raum spärlich und groß ist; gleichzeitig ist das manuelle Erstellen effektiver Feature-Interaktionen aufgrund des exponentiellen Lösungsraums nicht praktikabel. Wir schlagen vor, eine Transformer-basierte Architektur mit Attention-Layern zu nutzen, um Feature-Interaktionen automatisch zu erfassen. Transformer-Architekturen haben in vielen Bereichen, wie der natürlichen Sprachverarbeitung und der Computer Vision, großen Erfolg gezeigt. Allerdings wurde die Transformer-Architektur für die Modellierung von Feature-Interaktionen in der Industrie bisher kaum übernommen. Unser Ziel ist es, diese Lücke zu schließen. Wir identifizieren zwei zentrale Herausforderungen bei der Anwendung der Standard-Transformer-Architektur auf Web-Scale-Empfehlungssysteme: (1) Die Transformer-Architektur kann die heterogenen Feature-Interaktionen im Self-Attention-Layer nicht erfassen; (2) Die Latenzzeit der Transformer-Architektur könnte zu hoch sein, um sie in Web-Scale-Empfehlungssystemen einzusetzen. Zunächst schlagen wir einen heterogenen Self-Attention-Layer vor, der eine einfache, aber effektive Modifikation des Self-Attention-Layers im Transformer darstellt, um die Heterogenität der Feature-Interaktionen zu berücksichtigen. Anschließend führen wir Hiformer (Heterogeneous Interaction Transformer) ein, um die Ausdrucksfähigkeit des Modells weiter zu verbessern. Durch Low-Rank-Approximation und Modellpruning ermöglicht Hiformer eine schnelle Inferenz für den Online-Einsatz. Umfangreiche Offline-Experimente bestätigen die Effektivität und Effizienz des Hiformer-Modells. Wir haben das Hiformer-Modell erfolgreich in ein reales, groß angelegtes App-Ranking-Modell bei Google Play integriert, was zu einer signifikanten Verbesserung der wichtigsten Engagement-Metriken (bis zu +2,66\%) führte.
English
Learning feature interaction is the critical backbone to building recommender
systems. In web-scale applications, learning feature interaction is extremely
challenging due to the sparse and large input feature space; meanwhile,
manually crafting effective feature interactions is infeasible because of the
exponential solution space. We propose to leverage a Transformer-based
architecture with attention layers to automatically capture feature
interactions. Transformer architectures have witnessed great success in many
domains, such as natural language processing and computer vision. However,
there has not been much adoption of Transformer architecture for feature
interaction modeling in industry. We aim at closing the gap. We identify two
key challenges for applying the vanilla Transformer architecture to web-scale
recommender systems: (1) Transformer architecture fails to capture the
heterogeneous feature interactions in the self-attention layer; (2) The serving
latency of Transformer architecture might be too high to be deployed in
web-scale recommender systems. We first propose a heterogeneous self-attention
layer, which is a simple yet effective modification to the self-attention layer
in Transformer, to take into account the heterogeneity of feature interactions.
We then introduce Hiformer (Heterogeneous
Interaction Transformer) to further improve the model
expressiveness. With low-rank approximation and model pruning, \hiformer enjoys
fast inference for online deployment. Extensive offline experiment results
corroborates the effectiveness and efficiency of the Hiformer model.
We have successfully deployed the Hiformer model to a real world large
scale App ranking model at Google Play, with significant improvement in key
engagement metrics (up to +2.66\%).