Wie gut verallgemeinern generative Empfehlungssysteme?

Zusammenfassung

Eine weit verbreitete Hypothese dafür, warum generative Empfehlungsmodelle (GR) konventionelle, auf Item-IDs basierende Modelle übertreffen, ist ihre bessere Generalisierungsfähigkeit. Es gibt jedoch kaum systematische Methoden, um diese Hypothese über einen oberflächlichen Vergleich der Gesamtleistung hinaus zu überprüfen. Um diese Lücke zu schließen, kategorisieren wir jede Dateninstanz basierend auf der für eine korrekte Vorhersage erforderlichen Fähigkeit: entweder Memorierung (Wiederverwendung von während des Trainings beobachteten Item-Übergangsmustern) oder Generalisierung (Kombination bekannter Muster zur Vorhersage ungesehener Item-Übergänge). Umfangreiche Experimente zeigen, dass GR-Modelle bei Instanzen, die Generalisierung erfordern, besser abschneiden, während auf Item-IDs basierende Modelle überlegen sind, wenn Memorierung wichtiger ist. Um diese Diskrepanz zu erklären, verlagern wir die Analyse von der Item- auf die Token-Ebene und zeigen, dass sich das, was auf Item-Ebene nach Generalisierung aussieht, für GR-Modelle oft auf Token-level Memorierung reduzieren lässt. Schließlich zeigen wir, dass die beiden Paradigmen komplementär sind. Wir schlagen einen einfachen memorierungsbasierten Indikator vor, der sie adaptiv auf Instanzebene kombiniert und so zu einer verbesserten Gesamtleistung der Empfehlungen führt.

English

A widely held hypothesis for why generative recommendation (GR) models outperform conventional item ID-based models is that they generalize better. However, there is few systematic way to verify this hypothesis beyond a superficial comparison of overall performance. To address this gap, we categorize each data instance based on the specific capability required for a correct prediction: either memorization (reusing item transition patterns observed during training) or generalization (composing known patterns to predict unseen item transitions). Extensive experiments show that GR models perform better on instances that require generalization, whereas item ID-based models perform better when memorization is more important. To explain this divergence, we shift the analysis from the item level to the token level and show that what appears to be item-level generalization often reduces to token-level memorization for GR models. Finally, we show that the two paradigms are complementary. We propose a simple memorization-aware indicator that adaptively combines them on a per-instance basis, leading to improved overall recommendation performance.

Wie gut verallgemeinern generative Empfehlungssysteme?

How Well Does Generative Recommendation Generalize?

Zusammenfassung

Support