Hiformer: Обучение гетерогенных взаимодействий признаков с использованием трансформеров для рекомендательных систем
Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems
November 10, 2023
Авторы: Huan Gui, Ruoxi Wang, Ke Yin, Long Jin, Maciej Kula, Taibai Xu, Lichan Hong, Ed H. Chi
cs.AI
Аннотация
Изучение взаимодействия признаков является ключевой основой для построения рекомендательных систем. В веб-масштабных приложениях обучение взаимодействию признаков крайне сложно из-за разреженного и обширного пространства входных признаков; в то же время ручное создание эффективных взаимодействий признаков невозможно из-за экспоненциального пространства решений. Мы предлагаем использовать архитектуру на основе Transformer с уровнями внимания для автоматического захвата взаимодействий признаков. Архитектуры Transformer добились значительных успехов во многих областях, таких как обработка естественного языка и компьютерное зрение. Однако в индустрии пока не наблюдается широкого внедрения архитектуры Transformer для моделирования взаимодействий признаков. Мы стремимся устранить этот пробел. Мы выделяем две ключевые проблемы при применении базовой архитектуры Transformer к веб-масштабным рекомендательным системам: (1) архитектура Transformer не способна захватывать гетерогенные взаимодействия признаков на уровне self-attention; (2) задержка обработки архитектуры Transformer может быть слишком высокой для развертывания в веб-масштабных рекомендательных системах. Сначала мы предлагаем гетерогенный уровень self-attention, который представляет собой простое, но эффективное изменение уровня self-attention в Transformer, чтобы учитывать гетерогенность взаимодействий признаков. Затем мы представляем Hiformer (Heterogeneous Interaction Transformer) для дальнейшего повышения выразительности модели. Благодаря низкоранговой аппроксимации и обрезке модели, Hiformer обеспечивает быстрое выполнение для онлайн-развертывания. Результаты обширных оффлайн-экспериментов подтверждают эффективность и производительность модели Hiformer. Мы успешно внедрили модель Hiformer в крупномасштабную модель ранжирования приложений в Google Play, что привело к значительному улучшению ключевых метрик вовлеченности (до +2,66\%).
English
Learning feature interaction is the critical backbone to building recommender
systems. In web-scale applications, learning feature interaction is extremely
challenging due to the sparse and large input feature space; meanwhile,
manually crafting effective feature interactions is infeasible because of the
exponential solution space. We propose to leverage a Transformer-based
architecture with attention layers to automatically capture feature
interactions. Transformer architectures have witnessed great success in many
domains, such as natural language processing and computer vision. However,
there has not been much adoption of Transformer architecture for feature
interaction modeling in industry. We aim at closing the gap. We identify two
key challenges for applying the vanilla Transformer architecture to web-scale
recommender systems: (1) Transformer architecture fails to capture the
heterogeneous feature interactions in the self-attention layer; (2) The serving
latency of Transformer architecture might be too high to be deployed in
web-scale recommender systems. We first propose a heterogeneous self-attention
layer, which is a simple yet effective modification to the self-attention layer
in Transformer, to take into account the heterogeneity of feature interactions.
We then introduce Hiformer (Heterogeneous
Interaction Transformer) to further improve the model
expressiveness. With low-rank approximation and model pruning, \hiformer enjoys
fast inference for online deployment. Extensive offline experiment results
corroborates the effectiveness and efficiency of the Hiformer model.
We have successfully deployed the Hiformer model to a real world large
scale App ranking model at Google Play, with significant improvement in key
engagement metrics (up to +2.66\%).