Hoe Goed Generaliseert Generatieve Aanbeveling?
How Well Does Generative Recommendation Generalize?
March 20, 2026
Auteurs: Yijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou
cs.AI
Samenvatting
Een veelgehoorde hypothese waarom generatieve aanbevelingsmodellen (GR) conventionele op item-ID gebaseerde modellen overtreffen, is dat ze beter generaliseren. Er bestaat echter weinig systematische manier om deze hypothese te verifiëren, behalve door een oppervlakkige vergelijking van de algehele prestaties. Om deze leemte te adresseren, categoriseren we elke datainstantie op basis van de specifieke vaardigheid die nodig is voor een correcte voorspelling: ofwel memorisatie (het hergebruiken van itemovergangspatronen die tijdens de training zijn waargenomen) ofwel generalisatie (het combineren van bekende patronen om onzichtbare itemovergangen te voorspellen). Uitgebreide experimenten tonen aan dat GR-modellen beter presteren op instanties die generalisatie vereisen, terwijl op item-ID gebaseerde modellen beter presteren wanneer memorisatie belangrijker is. Om deze divergentie te verklaren, verschuiven we de analyse van het itemniveau naar het tokenniveau en tonen we aan dat wat lijkt op generalisatie op itemniveau voor GR-modellen vaak neerkomt op memorisatie op tokenniveau. Ten slotte tonen we aan dat de twee paradigma's complementair zijn. We stellen een eenvoudige, memorisatiebewuste indicator voor die ze adaptief combineert per instantie, wat leidt tot verbeterde algehele aanbevelingsprestaties.
English
A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.