¿Qué Tan Bien Generaliza la Recomendación Generativa?

Resumen

Una hipótesis ampliamente aceptada sobre por qué los modelos de recomendación generativa (GR) superan a los modelos convencionales basados en ID de ítems es que generalizan mejor. Sin embargo, existen pocas formas sistemáticas de verificar esta hipótesis más allá de una comparación superficial del rendimiento general. Para abordar esta brecha, categorizamos cada instancia de datos en función de la capacidad específica requerida para una predicción correcta: memorización (reutilizar patrones de transición de ítems observados durante el entrenamiento) o generalización (combinar patrones conocidos para predecir transiciones de ítems no vistas). Experimentos exhaustivos muestran que los modelos GR obtienen mejor rendimiento en instancias que requieren generalización, mientras que los modelos basados en ID de ítems funcionan mejor cuando la memorización es más importante. Para explicar esta divergencia, trasladamos el análisis del nivel de ítem al nivel de token y demostramos que lo que parece ser generalización a nivel de ítem a menudo se reduce a memorización a nivel de token para los modelos GR. Finalmente, mostramos que los dos paradigmas son complementarios. Proponemos un indicador simple consciente de la memorización que los combina de forma adaptativa para cada instancia, lo que conduce a una mejora en el rendimiento general de la recomendación.

English

A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.

¿Qué Tan Bien Generaliza la Recomendación Generativa?

How Well Does Generative Recommendation Generalize?

Resumen

Support