Quão Bem a Recomendação Generativa Generaliza?

Resumo

Uma hipótese amplamente aceita para explicar por que os modelos de recomendação generativa (GR) superam os modelos convencionais baseados em IDs de itens é que eles generalizam melhor. No entanto, existem poucas formas sistemáticas de verificar essa hipótese além de uma comparação superficial do desempenho geral. Para preencher essa lacuna, categorizamos cada instância de dados com base na capacidade específica necessária para uma previsão correta: memorização (reutilizar padrões de transição de itens observados durante o treinamento) ou generalização (compor padrões conhecidos para prever transições de itens não vistas. Experimentos extensivos mostram que os modelos GR têm melhor desempenho em instâncias que exigem generalização, enquanto os modelos baseados em ID de item performam melhor quando a memorização é mais importante. Para explicar essa divergência, deslocamos a análise do nível do item para o nível do *token* e demonstramos que o que parece ser generalização no nível do item frequentemente se reduz a memorização no nível do *token* para os modelos GR. Por fim, mostramos que os dois paradigmas são complementares. Propomos um indicador simples, consciente da memorização, que os combina de forma adaptativa para cada instância, resultando em um desempenho geral de recomendação aprimorado.

English

A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.

Quão Bem a Recomendação Generativa Generaliza?

How Well Does Generative Recommendation Generalize?

Resumo

Support