ActionPiece: 生成的レコメンデーションのための文脈に基づくアクションシーケンスのトークン化
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation
February 19, 2025
著者: Yupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
要旨
生成的レコメンデーション(GR)は、ユーザーの行動を離散的なトークンパターンにトークン化し、自己回帰的に予測として生成する新たなパラダイムです。しかし、既存のGRモデルでは、各行動を独立してトークン化し、すべてのシーケンスで同じ行動に固定されたトークンを割り当てており、文脈的な関係を考慮していません。この文脈認識の欠如は、同じ行動でもその周囲の文脈によって異なる意味を持つ可能性があるため、最適でないパフォーマンスを引き起こす可能性があります。この問題に対処するため、我々はActionPieceを提案し、行動シーケンスのトークン化時に明示的に文脈を組み込みます。ActionPieceでは、各行動はアイテムの特徴セットとして表現され、これが初期トークンとして機能します。行動シーケンスのコーパスを基に、特徴パターンを新しいトークンとして統合し、個々のセット内および隣接するセット間での共起頻度に基づいて語彙を構築します。特徴セットの順序なしの性質を考慮し、さらにセット順列正則化を導入し、同じ意味を持つ複数の行動シーケンスのセグメンテーションを生成します。公開データセットでの実験により、ActionPieceが既存の行動トークン化手法を一貫して上回り、NDCG@10を6.00%から12.82%向上させることが示されました。
English
Generative recommendation (GR) is an emerging paradigm where user actions are
tokenized into discrete token patterns and autoregressively generated as
predictions. However, existing GR models tokenize each action independently,
assigning the same fixed tokens to identical actions across all sequences
without considering contextual relationships. This lack of context-awareness
can lead to suboptimal performance, as the same action may hold different
meanings depending on its surrounding context. To address this issue, we
propose ActionPiece to explicitly incorporate context when tokenizing action
sequences. In ActionPiece, each action is represented as a set of item
features, which serve as the initial tokens. Given the action sequence corpora,
we construct the vocabulary by merging feature patterns as new tokens, based on
their co-occurrence frequency both within individual sets and across adjacent
sets. Considering the unordered nature of feature sets, we further introduce
set permutation regularization, which produces multiple segmentations of action
sequences with the same semantics. Experiments on public datasets demonstrate
that ActionPiece consistently outperforms existing action tokenization methods,
improving NDCG@10 by 6.00% to 12.82%.Summary
AI-Generated Summary