ActionPiece: Tokenização Contextual de Sequências de Ações para Recomendação Generativa
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation
February 19, 2025
Autores: Yupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
Resumo
A recomendação generativa (GR) é um paradigma emergente no qual as ações dos usuários são tokenizadas em padrões discretos de tokens e geradas de forma autoregressiva como previsões. No entanto, os modelos de GR existentes tokenizam cada ação de forma independente, atribuindo os mesmos tokens fixos a ações idênticas em todas as sequências, sem considerar as relações contextuais. Essa falta de consciência contextual pode levar a um desempenho subótimo, já que a mesma ação pode ter significados diferentes dependendo do contexto ao seu redor. Para resolver esse problema, propomos o ActionPiece, que incorpora explicitamente o contexto ao tokenizar sequências de ações. No ActionPiece, cada ação é representada como um conjunto de características de itens, que servem como tokens iniciais. Dado o corpus de sequências de ações, construímos o vocabulário mesclando padrões de características como novos tokens, com base em sua frequência de co-ocorrência tanto dentro de conjuntos individuais quanto entre conjuntos adjacentes. Considerando a natureza não ordenada dos conjuntos de características, introduzimos ainda a regularização de permutação de conjuntos, que produz múltiplas segmentações de sequências de ações com a mesma semântica. Experimentos em conjuntos de dados públicos demonstram que o ActionPiece supera consistentemente os métodos existentes de tokenização de ações, melhorando o NDCG@10 em 6,00% a 12,82%.
English
Generative recommendation (GR) is an emerging paradigm where user actions are
tokenized into discrete token patterns and autoregressively generated as
predictions. However, existing GR models tokenize each action independently,
assigning the same fixed tokens to identical actions across all sequences
without considering contextual relationships. This lack of context-awareness
can lead to suboptimal performance, as the same action may hold different
meanings depending on its surrounding context. To address this issue, we
propose ActionPiece to explicitly incorporate context when tokenizing action
sequences. In ActionPiece, each action is represented as a set of item
features, which serve as the initial tokens. Given the action sequence corpora,
we construct the vocabulary by merging feature patterns as new tokens, based on
their co-occurrence frequency both within individual sets and across adjacent
sets. Considering the unordered nature of feature sets, we further introduce
set permutation regularization, which produces multiple segmentations of action
sequences with the same semantics. Experiments on public datasets demonstrate
that ActionPiece consistently outperforms existing action tokenization methods,
improving NDCG@10 by 6.00% to 12.82%.Summary
AI-Generated Summary