生成的推薦システムトークナイザーの再考:LLMを超えたレコメンドネイティブな符号化と意味的量子化
Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs
February 2, 2026
著者: Yu Liang, Zhongjin Zhang, Yuxuan Zhu, Kerui Zhang, Zhiluohan Guo, Wenhang Zhou, Zonqi Yang, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Jianxin Wang, Jiazhi Xia
cs.AI
要旨
Semantic ID(SID)に基づく推薦は、逐次推薦システムをスケーリングする有望なパラダイムである。しかし、既存手法の多くは意味論中心のパイプラインに依拠している。すなわち、基盤モデルからアイテム埋め込みを学習し、汎用的な量子化手法を用いて離散化する。この設計は生成的推薦の目的と整合しない。意味論的埋め込みは協調予測と弱く結合しており、汎用的な量子化は自己回帰モデリングにおける逐次的不確実性の低減に非効率である。これらの問題に対処するため、我々はReSIDを提案する。これは推薦に特化した原理的なSIDフレームワークであり、LLMに依存せず、情報保存と逐次的予測可能性の観点から表現学習と量子化を再考する。ReSIDは二つのコンポーネントから構成される:(i) 構造化特徴から予測的に十分なアイテム表現を学習するField-Aware Masked Auto-Encoding (FAMAE)と、(ii) 意味的曖昧性とプレフィックス条件付き不確実性を同時に低減することで、コンパクトで予測可能なSID系列を生成するGlobally Aligned Orthogonal Quantization (GAOQ)である。理論分析と10のデータセットにおける大規模な実験により、ReSIDの有効性が示された。ReSIDは、強力な逐次推薦およびSIDベースの生成的ベースラインを平均10%以上一貫して上回り、トークン化コストを最大122倍削減した。コードはhttps://github.com/FuCongResearchSquad/ReSIDで公開されている。
English
Semantic ID (SID)-based recommendation is a promising paradigm for scaling sequential recommender systems, but existing methods largely follow a semantic-centric pipeline: item embeddings are learned from foundation models and discretized using generic quantization schemes. This design is misaligned with generative recommendation objectives: semantic embeddings are weakly coupled with collaborative prediction, and generic quantization is inefficient at reducing sequential uncertainty for autoregressive modeling. To address these, we propose ReSID, a recommendation-native, principled SID framework that rethinks representation learning and quantization from the perspective of information preservation and sequential predictability, without relying on LLMs. ReSID consists of two components: (i) Field-Aware Masked Auto-Encoding (FAMAE), which learns predictive-sufficient item representations from structured features, and (ii) Globally Aligned Orthogonal Quantization (GAOQ), which produces compact and predictable SID sequences by jointly reducing semantic ambiguity and prefix-conditional uncertainty. Theoretical analysis and extensive experiments across ten datasets show the effectiveness of ReSID. ReSID consistently outperforms strong sequential and SID-based generative baselines by an average of over 10%, while reducing tokenization cost by up to 122x. Code is available at https://github.com/FuCongResearchSquad/ReSID.