Насколько хорошо генеративные рекомендационные системы обобщают?
How Well Does Generative Recommendation Generalize?
March 20, 2026
Авторы: Yijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou
cs.AI
Аннотация
Распространенная гипотеза, объясняющая превосходство генеративных моделей рекомендаций (GR) над традиционными моделями на основе ID товаров, заключается в их лучшей способности к обобщению. Однако существует мало систематических способов проверить эту гипотезу помимо поверхностного сравнения общей производительности. Чтобы заполнить этот пробел, мы классифицируем каждый экземпляр данных на основе конкретной способности, необходимой для корректного прогноза: либо запоминание (повторное использование паттернов переходов между товарами, наблюдавшихся во время обучения), либо обобщение (комбинирование известных паттернов для прогнозирования ненаблюдавшихся переходов). Масштабные эксперименты показывают, что модели GR работают лучше на экземплярах, требующих обобщения, тогда как модели на основе ID товаров превосходят их, когда более важно запоминание. Чтобы объяснить это расхождение, мы переносим анализ с уровня товаров на уровень токенов и показываем, что то, что выглядит как обобщение на уровне товаров, часто сводится к запоминанию на уровне токенов для моделей GR. Наконец, мы демонстрируем, что две парадигмы дополняют друг друга. Мы предлагаем простой индикатор, учитывающий запоминание, который адаптивно комбинирует их для каждого отдельного экземпляра, что приводит к улучшению общей производительности рекомендательной системы.
English
A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.