HyTRec: Гибридная архитектура с временным вниманием для рекомендаций на основе длинных последовательностей поведения

Аннотация

Моделирование длинных последовательностей пользовательского поведения стало ключевым направлением в генеративной рекомендательной системе. Однако существующие решения сталкиваются с дилеммой: линейные механизмы внимания обеспечивают эффективность ценой потери точности извлечения данных из-за ограниченной емкости состояния, в то время как softmax-внимание приводит к запретительно высоким вычислительным затратам. Для решения этой проблемы мы предлагаем HyTRec — модель с гибридной архитектурой внимания, которая явно разделяет долгосрочные стабильные предпочтения и краткосрочные всплески намерений. Назначая массовые исторические последовательности ветви линейного внимания и резервируя специализированную ветвь softmax-внимания для недавних взаимодействий, наш подход восстанавливает точные возможности извлечения данных в промышленных масштабах, включающих десятки тысяч взаимодействий. Для компенсации задержки в捕捉 быстрых смещений интересов в линейных слоях мы дополнительно разработали Temporal-Aware Delta Network (TADN), которая динамически усиливает свежие поведенческие сигналы, эффективно подавляя исторический шум. Экспериментальные результаты на промышленных наборах данных подтверждают превосходство нашей модели: она сохраняет линейную скорость вывода и превосходит сильные базовые методы, демонстрируя более чем 8%-ное улучшение Hit Rate для пользователей со сверхдлинными последовательностями при высокой эффективности.

English

Modeling long sequences of user behaviors has emerged as a critical frontier in generative recommendation. However, existing solutions face a dilemma: linear attention mechanisms achieve efficiency at the cost of retrieval precision due to limited state capacity, while softmax attention suffers from prohibitive computational overhead. To address this challenge, we propose HyTRec, a model featuring a Hybrid Attention architecture that explicitly decouples long-term stable preferences from short-term intent spikes. By assigning massive historical sequences to a linear attention branch and reserving a specialized softmax attention branch for recent interactions, our approach restores precise retrieval capabilities within industrial-scale contexts involving ten thousand interactions. To mitigate the lag in capturing rapid interest drifts within the linear layers, we furthermore design Temporal-Aware Delta Network (TADN) to dynamically upweight fresh behavioral signals while effectively suppressing historical noise. Empirical results on industrial-scale datasets confirm the superiority that our model maintains linear inference speed and outperforms strong baselines, notably delivering over 8% improvement in Hit Rate for users with ultra-long sequences with great efficiency.

HyTRec: Гибридная архитектура с временным вниманием для рекомендаций на основе длинных последовательностей поведения

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Аннотация

Support