Repenser le tokeniseur génératif de recommandation : encodage natif Recsys et quantification sémantique au-delà des LLM
Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs
February 2, 2026
papers.authors: Yu Liang, Zhongjin Zhang, Yuxuan Zhu, Kerui Zhang, Zhiluohan Guo, Wenhang Zhou, Zonqi Yang, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Jianxin Wang, Jiazhi Xia
cs.AI
papers.abstract
La recommandation basée sur les identifiants sémantiques (SID) est un paradigme prometteur pour la mise à l'échelle des systèmes de recommandation séquentiels, mais les méthodes existantes suivent largement un pipeline sémantico-centrique : les embeddings d'items sont appris à partir de modèles de fond puis discrétisés via des schémas de quantification génériques. Cette conception est en décalage avec les objectifs de la recommandation générative : les embeddings sémantiques sont faiblement couplés avec la prédiction collaborative, et la quantification générique est inefficace pour réduire l'incertitude séquentielle nécessaire à la modélisation autoregressive. Pour y remédier, nous proposons ReSID, un cadre SID fondamental et natif pour la recommandation, qui repense l'apprentissage des représentations et la quantification sous l'angle de la préservation de l'information et de la prévisibilité séquentielle, sans recourir aux grands modèles de langage (LLM). ReSID se compose de deux éléments : (i) le Auto-Encodage Masqué Sensible aux Champs (FAMAE), qui apprend des représentations d'items suffisamment prédictives à partir de caractéristiques structurées, et (ii) la Quantification Orthogonale à Alignement Global (GAOQ), qui produit des séquences SID compactes et prévisibles en réduisant conjointement l'ambiguïté sémantique et l'incertitude conditionnelle au préfixe. L'analyse théorique et des expériences poussées sur dix jeux de données démontrent l'efficacité de ReSID. Notre méthode surpasse systématiquement des bases de référence solides, qu'elles soient séquentielles ou génératives basées sur les SID, avec une amélioration moyenne de plus de 10 %, tout en réduisant le coût de tokenisation jusqu'à 122 fois. Le code est disponible à l'adresse https://github.com/FuCongResearchSquad/ReSID.
English
Semantic ID (SID)-based recommendation is a promising paradigm for scaling sequential recommender systems, but existing methods largely follow a semantic-centric pipeline: item embeddings are learned from foundation models and discretized using generic quantization schemes. This design is misaligned with generative recommendation objectives: semantic embeddings are weakly coupled with collaborative prediction, and generic quantization is inefficient at reducing sequential uncertainty for autoregressive modeling. To address these, we propose ReSID, a recommendation-native, principled SID framework that rethinks representation learning and quantization from the perspective of information preservation and sequential predictability, without relying on LLMs. ReSID consists of two components: (i) Field-Aware Masked Auto-Encoding (FAMAE), which learns predictive-sufficient item representations from structured features, and (ii) Globally Aligned Orthogonal Quantization (GAOQ), which produces compact and predictable SID sequences by jointly reducing semantic ambiguity and prefix-conditional uncertainty. Theoretical analysis and extensive experiments across ten datasets show the effectiveness of ReSID. ReSID consistently outperforms strong sequential and SID-based generative baselines by an average of over 10%, while reducing tokenization cost by up to 122x. Code is available at https://github.com/FuCongResearchSquad/ReSID.