ActionPiece: Tokenização Contextual de Sequências de Ações para Recomendação Generativa

Resumo

A recomendação generativa (GR) é um paradigma emergente no qual as ações dos usuários são tokenizadas em padrões discretos de tokens e geradas de forma autoregressiva como previsões. No entanto, os modelos de GR existentes tokenizam cada ação de forma independente, atribuindo os mesmos tokens fixos a ações idênticas em todas as sequências, sem considerar as relações contextuais. Essa falta de consciência contextual pode levar a um desempenho subótimo, já que a mesma ação pode ter significados diferentes dependendo do contexto ao seu redor. Para resolver esse problema, propomos o ActionPiece, que incorpora explicitamente o contexto ao tokenizar sequências de ações. No ActionPiece, cada ação é representada como um conjunto de características de itens, que servem como tokens iniciais. Dado o corpus de sequências de ações, construímos o vocabulário mesclando padrões de características como novos tokens, com base em sua frequência de co-ocorrência tanto dentro de conjuntos individuais quanto entre conjuntos adjacentes. Considerando a natureza não ordenada dos conjuntos de características, introduzimos ainda a regularização de permutação de conjuntos, que produz múltiplas segmentações de sequências de ações com a mesma semântica. Experimentos em conjuntos de dados públicos demonstram que o ActionPiece supera consistentemente os métodos existentes de tokenização de ações, melhorando o NDCG@10 em 6,00% a 12,82%.

English

Generative recommendation (GR) is an emerging paradigm where user actions are tokenized into discrete token patterns and autoregressively generated as predictions. However, existing GR models tokenize each action independently, assigning the same fixed tokens to identical actions across all sequences without considering contextual relationships. This lack of context-awareness can lead to suboptimal performance, as the same action may hold different meanings depending on its surrounding context. To address this issue, we propose ActionPiece to explicitly incorporate context when tokenizing action sequences. In ActionPiece, each action is represented as a set of item features, which serve as the initial tokens. Given the action sequence corpora, we construct the vocabulary by merging feature patterns as new tokens, based on their co-occurrence frequency both within individual sets and across adjacent sets. Considering the unordered nature of feature sets, we further introduce set permutation regularization, which produces multiple segmentations of action sequences with the same semantics. Experiments on public datasets demonstrate that ActionPiece consistently outperforms existing action tokenization methods, improving NDCG@10 by 6.00% to 12.82%.

ActionPiece: Tokenização Contextual de Sequências de Ações para Recomendação Generativa

ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Resumo

Support