Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs

Samenvatting

Op Semantic ID (SID) gebaseerde aanbeveling is een veelbelovend paradigma voor het schalen van sequentiële aanbevelingssystemen, maar bestaande methoden volgen grotendeels een semantisch-gecentreerde pijplijn: item-embeddings worden aangeleerd van foundation-modellen en gediscretiseerd met behulp van generieke kwantiseringsschema's. Dit ontwerp is niet in lijn met generatieve aanbevelingsdoelen: semantische embeddings zijn zwak gekoppeld aan collaboratieve voorspelling, en generieke kwantisering is inefficiënt in het verminderen van sequentiële onzekerheid voor autoregressieve modellering. Om deze problemen aan te pakken, stellen we ReSID voor, een aanbevelingsnativ, principekader voor SID dat representatieleren en kwantisering opnieuw bekijkt vanuit het perspectief van informatiebehoud en sequentiële voorspelbaarheid, zonder afhankelijk te zijn van LLM's. ReSID bestaat uit twee componenten: (i) Veldbewuste Gemaskeerde Auto-codering (FAMAE), die voorspellingsvoldoende itemrepresentaties aanleert van gestructureerde kenmerken, en (ii) Globaal Uitgelijnde Orthogonale Kwantisering (GAOQ), die compacte en voorspelbare SID-sequenties produceert door gezamenlijk semantische dubbelzinnigheid en prefix-conditionele onzekerheid te verminderen. Theoretische analyse en uitgebreide experimenten op tien datasets tonen de effectiviteit van ReSID aan. ReSID presteert consistent beter dan sterke sequentiële en op SID gebaseerde generatieve baseline-methoden met gemiddeld meer dan 10%, terwijl de tokenisatiekosten tot 122x worden verlaagd. Code is beschikbaar op https://github.com/FuCongResearchSquad/ReSID.

English

Semantic ID (SID)-based recommendation is a promising paradigm for scaling sequential recommender systems, but existing methods largely follow a semantic-centric pipeline: item embeddings are learned from foundation models and discretized using generic quantization schemes. This design is misaligned with generative recommendation objectives: semantic embeddings are weakly coupled with collaborative prediction, and generic quantization is inefficient at reducing sequential uncertainty for autoregressive modeling. To address these, we propose ReSID, a recommendation-native, principled SID framework that rethinks representation learning and quantization from the perspective of information preservation and sequential predictability, without relying on LLMs. ReSID consists of two components: (i) Field-Aware Masked Auto-Encoding (FAMAE), which learns predictive-sufficient item representations from structured features, and (ii) Globally Aligned Orthogonal Quantization (GAOQ), which produces compact and predictable SID sequences by jointly reducing semantic ambiguity and prefix-conditional uncertainty. Theoretical analysis and extensive experiments across ten datasets show the effectiveness of ReSID. ReSID consistently outperforms strong sequential and SID-based generative baselines by an average of over 10%, while reducing tokenization cost by up to 122x. Code is available at https://github.com/FuCongResearchSquad/ReSID.