Quanto si Generalizza la Raccomandazione Generativa?
How Well Does Generative Recommendation Generalize?
March 20, 2026
Autori: Yijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou
cs.AI
Abstract
Un'ipotesi ampiamente condivisa sul motivo per cui i modelli di recommendation generativi (GR) superano i modelli convenzionali basati sugli ID degli item è la loro maggiore capacità di generalizzazione. Tuttavia, esistono pochi metodi sistematici per verificare questa ipotesi al di là di un confronto superficiale delle prestazioni complessive. Per colmare questa lacuna, classifichiamo ogni istanza di dati in base alla capacità specifica richiesta per una predizione corretta: memorizzazione (riutilizzo di pattern di transizione tra item osservati durante l'addestramento) o generalizzazione (combinazione di pattern noti per predire transizioni tra item non viste). Esperimenti estesi mostrano che i modelli GR performano meglio sulle istanze che richiedono generalizzazione, mentre i modelli basati su ID degli item sono superiori quando la memorizzazione è più importante. Per spiegare questa divergenza, spostiamo l'analisi dal livello dell'item al livello del token e dimostriamo che ciò che appare come generalizzazione a livello di item spesso si riduce a memorizzazione a livello di token per i modelli GR. Infine, mostriamo che i due paradigmi sono complementari. Proponiamo un semplice indicatore consapevole della memorizzazione che li combina in modo adattivo su base per-istanza, portando a un miglioramento delle prestazioni complessive di recommendation.
English
A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.