생성형 추천 토크나이저 재고: LLM을 넘어선 추천 시스템 고유 인코딩 및 의미론적 양자화
Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs
February 2, 2026
저자: Yu Liang, Zhongjin Zhang, Yuxuan Zhu, Kerui Zhang, Zhiluohan Guo, Wenhang Zhou, Zonqi Yang, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Jianxin Wang, Jiazhi Xia
cs.AI
초록
시맨틱 ID(SID) 기반 추천은 순차 추천 시스템의 확장을 위한 유망한 패러다임이지만, 기존 방법은 대부분 시맨틱 중심 파이프라인을 따릅니다. 즉, 파운데이션 모델에서 학습된 아이템 임베딩을 일반적인 양자화 기법을 사용하여 이산화합니다. 이러한 설계는 생성적 추천 목표와 부조화됩니다. 시맨틱 임베딩은 협업 예측과 약하게 결합되어 있고, 일반적인 양자화는 자기회귀 모델링을 위한 순차적 불확실성 감소에 비효율적입니다. 이러한 문제를 해결하기 위해 우리는 LLM에 의존하지 않고 정보 보존과 순차적 예측 가능성 관점에서 표현 학습과 양자화를 재고하는 추천 네이티브(Recommendation-Native)이며 원칙적인 SID 프레임워크인 ReSID를 제안합니다. ReSID는 두 가지 구성 요소로 이루어집니다: (i) 구조화된 특징으로부터 예측에 충분한( Predictive-Sufficient) 아이템 표현을 학습하는 필드 인식 마스크 자동 인코딩(FAMAE)과 (ii) 시맨틱 모호성과 접두사-조건부 불확실성을 공동으로 감소시켜 컴팩트하고 예측 가능한 SID 시퀀스를 생성하는 전역 정렬 직교 양자화(GAOQ). 이론적 분석과 10개 데이터셋에 걸친 광범위한 실험을 통해 ReSID의 효과성을 입증했습니다. ReSID는 강력한 순차 및 SID 기반 생성 베이스라인을 평균 10% 이상 꾸준히 능가하면서도 토큰화 비용을 최대 122배까지 절감했습니다. 코드는 https://github.com/FuCongResearchSquad/ReSID에서 확인할 수 있습니다.
English
Semantic ID (SID)-based recommendation is a promising paradigm for scaling sequential recommender systems, but existing methods largely follow a semantic-centric pipeline: item embeddings are learned from foundation models and discretized using generic quantization schemes. This design is misaligned with generative recommendation objectives: semantic embeddings are weakly coupled with collaborative prediction, and generic quantization is inefficient at reducing sequential uncertainty for autoregressive modeling. To address these, we propose ReSID, a recommendation-native, principled SID framework that rethinks representation learning and quantization from the perspective of information preservation and sequential predictability, without relying on LLMs. ReSID consists of two components: (i) Field-Aware Masked Auto-Encoding (FAMAE), which learns predictive-sufficient item representations from structured features, and (ii) Globally Aligned Orthogonal Quantization (GAOQ), which produces compact and predictable SID sequences by jointly reducing semantic ambiguity and prefix-conditional uncertainty. Theoretical analysis and extensive experiments across ten datasets show the effectiveness of ReSID. ReSID consistently outperforms strong sequential and SID-based generative baselines by an average of over 10%, while reducing tokenization cost by up to 122x. Code is available at https://github.com/FuCongResearchSquad/ReSID.