HyTRec: Eine hybride temporal-sensitive Aufmerksamkeitsarchitektur für Empfehlungen basierend auf langen Verhaltenssequenzen
HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation
February 20, 2026
papers.authors: Lei Xin, Yuhao Zheng, Ke Cheng, Changjiang Jiang, Zifan Zhang, Fanhu Zeng
cs.AI
papers.abstract
Die Modellierung langer Sequenzen von Nutzerverhalten hat sich als entscheidende Herausforderung im Bereich der generativen Empfehlungssysteme herauskristallisiert. Bisherige Lösungen stehen jedoch vor einem Dilemma: Lineare Aufmerksamkeitsmechanismen erreichen Effizienz auf Kosten der Retrieval-Präzision aufgrund begrenzter Zustandskapazität, während Softmax-Aufmerksamkeit unter prohibitiv hohem Rechenaufwand leidet. Um diese Herausforderung zu bewältigen, schlagen wir HyTRec vor, ein Modell mit einer hybriden Aufmerksamkeitsarchitektur, die langfristig stabile Präferenzen explizit von kurzfristigen Intent-Spikes entkoppelt. Indem umfangreiche historische Sequenzen einem linearen Aufmerksamkeitszweig zugewiesen werden und ein spezialisierter Softmax-Aufmerksamkeitszweig für recente Interaktionen reserviert wird, stellt unser Ansatz präzise Retrieval-Fähigkeiten in industriellen Kontexten mit zehntausend Interaktionen wieder her. Um die Verzögerung bei der Erfassung schneller Interessenverschiebungen in den linearen Schichten zu mildern, entwerfen wir ferner ein temporal-sensibles Delta-Netzwerk (TADN), das frische Verhaltenssignale dynamisch gewichtet und gleichzeitig historisches Rauschen effektiv unterdrückt. Empirische Ergebnisse auf industriellen Datensätzen bestätigen die Überlegenheit unseres Modells, das lineare Inferenzgeschwindigkeit beibehält und starke Baseline-Modelle übertrifft, insbesondere mit einer Steigerung der Hit-Rate um über 8 % für Nutzer mit ultralangen Sequenzen bei hoher Effizienz.
English
Modeling long sequences of user behaviors has emerged as a critical frontier in generative recommendation. However, existing solutions face a dilemma: linear attention mechanisms achieve efficiency at the cost of retrieval precision due to limited state capacity, while softmax attention suffers from prohibitive computational overhead. To address this challenge, we propose HyTRec, a model featuring a Hybrid Attention architecture that explicitly decouples long-term stable preferences from short-term intent spikes. By assigning massive historical sequences to a linear attention branch and reserving a specialized softmax attention branch for recent interactions, our approach restores precise retrieval capabilities within industrial-scale contexts involving ten thousand interactions. To mitigate the lag in capturing rapid interest drifts within the linear layers, we furthermore design Temporal-Aware Delta Network (TADN) to dynamically upweight fresh behavioral signals while effectively suppressing historical noise. Empirical results on industrial-scale datasets confirm the superiority that our model maintains linear inference speed and outperforms strong baselines, notably delivering over 8% improvement in Hit Rate for users with ultra-long sequences with great efficiency.