Repensando o Tokenizador Generativo de Recomendação: Codificação Nativa de RecSys e Quantização Semântica Além dos LLMs

Resumo

A recomendação baseada em ID Semântico (SID) é um paradigma promissor para a escalabilidade de sistemas de recomendação sequencial, mas os métodos existentes seguem amplamente um pipeline centrado na semântica: as incorporações de itens são aprendidas a partir de modelos de base e discretizadas usando esquemas de quantização genéricos. Este design está desalinhado com os objetivos da recomendação generativa: as incorporações semânticas estão fracamente acopladas com a predição colaborativa, e a quantização genérica é ineficiente na redução da incerteza sequencial para a modelagem autoregressiva. Para resolver estas questões, propomos o ReSID, uma estrutura SID principista e nativa para recomendação que repensa a aprendizagem de representações e a quantização a partir da perspetiva da preservação de informação e da previsibilidade sequencial, sem depender de LLMs. O ReSID consiste em dois componentes: (i) *Field-Aware Masked Auto-Encoding* (FAMAE), que aprende representações de itens preditivamente suficientes a partir de características estruturadas, e (ii) *Globally Aligned Orthogonal Quantization* (GAOQ), que produz sequências SID compactas e previsíveis através da redução conjunta da ambiguidade semântica e da incerteza condicional ao prefixo. A análise teórica e experiências extensas em dez conjuntos de dados mostram a eficácia do ReSID. O ReSID supera consistentemente *baselines* fortes de recomendação sequencial e generativa baseada em SID numa média superior a 10%, enquanto reduz o custo de tokenização em até 122x. O código está disponível em https://github.com/FuCongResearchSquad/ReSID.

English

Semantic ID (SID)-based recommendation is a promising paradigm for scaling sequential recommender systems, but existing methods largely follow a semantic-centric pipeline: item embeddings are learned from foundation models and discretized using generic quantization schemes. This design is misaligned with generative recommendation objectives: semantic embeddings are weakly coupled with collaborative prediction, and generic quantization is inefficient at reducing sequential uncertainty for autoregressive modeling. To address these, we propose ReSID, a recommendation-native, principled SID framework that rethinks representation learning and quantization from the perspective of information preservation and sequential predictability, without relying on LLMs. ReSID consists of two components: (i) Field-Aware Masked Auto-Encoding (FAMAE), which learns predictive-sufficient item representations from structured features, and (ii) Globally Aligned Orthogonal Quantization (GAOQ), which produces compact and predictable SID sequences by jointly reducing semantic ambiguity and prefix-conditional uncertainty. Theoretical analysis and extensive experiments across ten datasets show the effectiveness of ReSID. ReSID consistently outperforms strong sequential and SID-based generative baselines by an average of over 10%, while reducing tokenization cost by up to 122x. Code is available at https://github.com/FuCongResearchSquad/ReSID.

Repensando o Tokenizador Generativo de Recomendação: Codificação Nativa de RecSys e Quantização Semântica Além dos LLMs

Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs

Resumo

Support