ChatPaper.aiChatPaper

Replanteamiento del Tokenizador Generativo para Recomendación: Codificación Nativa de RecSys y Cuantización Semántica más Allá de los LLM

Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs

February 2, 2026
Autores: Yu Liang, Zhongjin Zhang, Yuxuan Zhu, Kerui Zhang, Zhiluohan Guo, Wenhang Zhou, Zonqi Yang, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Jianxin Wang, Jiazhi Xia
cs.AI

Resumen

La recomendación basada en ID Semánticos (SID) es un paradigma prometedor para escalar sistemas de recomendación secuenciales, pero los métodos existentes siguen en gran medida un enfoque centrado en la semántica: los *embeddings* de ítems se aprenden a partir de modelos fundacionales y se discretizan utilizando esquemas de cuantificación genéricos. Este diseño no está alineado con los objetivos de la recomendación generativa: los *embeddings* semánticos están débilmente acoplados con la predicción colaborativa, y la cuantificación genérica es ineficaz para reducir la incertidumbre secuencial en el modelado autoregresivo. Para abordar estos problemas, proponemos ReSID, un marco SID nativo para recomendación y con bases sólidas que replantea el aprendizaje de representaciones y la cuantificación desde la perspectiva de la preservación de información y la predictibilidad secuencial, sin depender de LLMs. ReSID consta de dos componentes: (i) Codificación Automática Enmascarada Consciente del Campo (FAMAE), que aprende representaciones de ítems predictivamente suficientes a partir de características estructuradas, y (ii) Cuantificación Ortogonal con Alineación Global (GAOQ), que produce secuencias SID compactas y predecibles mediante la reducción conjunta de la ambigüedad semántica y la incertidumbre condicional al prefijo. El análisis teórico y experimentos exhaustivos en diez conjuntos de datos demuestran la efectividad de ReSID. ReSID supera consistentemente a los fuertes baselines generativos secuenciales y basados en SID en un promedio de más del 10%, mientras reduce el costo de tokenización hasta en 122 veces. El código está disponible en https://github.com/FuCongResearchSquad/ReSID.
English
Semantic ID (SID)-based recommendation is a promising paradigm for scaling sequential recommender systems, but existing methods largely follow a semantic-centric pipeline: item embeddings are learned from foundation models and discretized using generic quantization schemes. This design is misaligned with generative recommendation objectives: semantic embeddings are weakly coupled with collaborative prediction, and generic quantization is inefficient at reducing sequential uncertainty for autoregressive modeling. To address these, we propose ReSID, a recommendation-native, principled SID framework that rethinks representation learning and quantization from the perspective of information preservation and sequential predictability, without relying on LLMs. ReSID consists of two components: (i) Field-Aware Masked Auto-Encoding (FAMAE), which learns predictive-sufficient item representations from structured features, and (ii) Globally Aligned Orthogonal Quantization (GAOQ), which produces compact and predictable SID sequences by jointly reducing semantic ambiguity and prefix-conditional uncertainty. Theoretical analysis and extensive experiments across ten datasets show the effectiveness of ReSID. ReSID consistently outperforms strong sequential and SID-based generative baselines by an average of over 10%, while reducing tokenization cost by up to 122x. Code is available at https://github.com/FuCongResearchSquad/ReSID.
PDF402February 7, 2026