Hiformer: Обучение гетерогенных взаимодействий признаков с использованием трансформеров для рекомендательных систем

Аннотация

Изучение взаимодействия признаков является ключевой основой для построения рекомендательных систем. В веб-масштабных приложениях обучение взаимодействию признаков крайне сложно из-за разреженного и обширного пространства входных признаков; в то же время ручное создание эффективных взаимодействий признаков невозможно из-за экспоненциального пространства решений. Мы предлагаем использовать архитектуру на основе Transformer с уровнями внимания для автоматического захвата взаимодействий признаков. Архитектуры Transformer добились значительных успехов во многих областях, таких как обработка естественного языка и компьютерное зрение. Однако в индустрии пока не наблюдается широкого внедрения архитектуры Transformer для моделирования взаимодействий признаков. Мы стремимся устранить этот пробел. Мы выделяем две ключевые проблемы при применении базовой архитектуры Transformer к веб-масштабным рекомендательным системам: (1) архитектура Transformer не способна захватывать гетерогенные взаимодействия признаков на уровне self-attention; (2) задержка обработки архитектуры Transformer может быть слишком высокой для развертывания в веб-масштабных рекомендательных системах. Сначала мы предлагаем гетерогенный уровень self-attention, который представляет собой простое, но эффективное изменение уровня self-attention в Transformer, чтобы учитывать гетерогенность взаимодействий признаков. Затем мы представляем Hiformer (Heterogeneous Interaction Transformer) для дальнейшего повышения выразительности модели. Благодаря низкоранговой аппроксимации и обрезке модели, Hiformer обеспечивает быстрое выполнение для онлайн-развертывания. Результаты обширных оффлайн-экспериментов подтверждают эффективность и производительность модели Hiformer. Мы успешно внедрили модель Hiformer в крупномасштабную модель ранжирования приложений в Google Play, что привело к значительному улучшению ключевых метрик вовлеченности (до +2,66\%).

English

Learning feature interaction is the critical backbone to building recommender systems. In web-scale applications, learning feature interaction is extremely challenging due to the sparse and large input feature space; meanwhile, manually crafting effective feature interactions is infeasible because of the exponential solution space. We propose to leverage a Transformer-based architecture with attention layers to automatically capture feature interactions. Transformer architectures have witnessed great success in many domains, such as natural language processing and computer vision. However, there has not been much adoption of Transformer architecture for feature interaction modeling in industry. We aim at closing the gap. We identify two key challenges for applying the vanilla Transformer architecture to web-scale recommender systems: (1) Transformer architecture fails to capture the heterogeneous feature interactions in the self-attention layer; (2) The serving latency of Transformer architecture might be too high to be deployed in web-scale recommender systems. We first propose a heterogeneous self-attention layer, which is a simple yet effective modification to the self-attention layer in Transformer, to take into account the heterogeneity of feature interactions. We then introduce Hiformer (Heterogeneous Interaction Transformer) to further improve the model expressiveness. With low-rank approximation and model pruning, \hiformer enjoys fast inference for online deployment. Extensive offline experiment results corroborates the effectiveness and efficiency of the Hiformer model. We have successfully deployed the Hiformer model to a real world large scale App ranking model at Google Play, with significant improvement in key engagement metrics (up to +2.66\%).

Hiformer: Обучение гетерогенных взаимодействий признаков с использованием трансформеров для рекомендательных систем

Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems

Аннотация

Support