Dans quelle mesure la recommandation générative se généralise-t-elle ?

Résumé

Une hypothèse largement répandue pour expliquer pourquoi les modèles de recommandation générative (RG) surpassent les modèles conventionnels basés sur les ID d'items est qu'ils généralisent mieux. Cependant, il existe peu de méthodes systématiques pour vérifier cette hypothèse au-delà d'une comparaison superficielle des performances globales. Pour combler cette lacune, nous catégorisons chaque instance de données en fonction de la capacité spécifique requise pour une prédiction correcte : soit la mémorisation (réutiliser des patterns de transition d'items observés pendant l'entraînement), soit la généralisation (combiner des patterns connus pour prédire des transitions d'items non vues). Des expériences approfondies montrent que les modèles RG obtiennent de meilleures performances sur les instances nécessitant une généralisation, tandis que les modèles basés sur les ID d'items performent mieux lorsque la mémorisation est plus importante. Pour expliquer cette divergence, nous déplaçons l'analyse du niveau de l'item vers le niveau du token et montrons que ce qui apparaît comme une généralisation au niveau de l'item se réduit souvent à une mémorisation au niveau du token pour les modèles RG. Enfin, nous montrons que les deux paradigmes sont complémentaires. Nous proposons un indicateur simple, sensible à la mémorisation, qui les combine de manière adaptative sur une base par instance, conduisant à une amélioration des performances globales de recommandation.

English

A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.

Dans quelle mesure la recommandation générative se généralise-t-elle ?

How Well Does Generative Recommendation Generalize?

Résumé

Support