デコーダ専用LLMはユーザーをどう認識するか?ユーザー表現学習におけるアテンションマスキングの再考
How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning
February 11, 2026
著者: Jiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Yang Chen, Xiaotong Lin, Wuliang Huang, Ziyi Gao, Xing Fu, Yu Cheng, Weiqiang Wang
cs.AI
要旨
デコーダのみの大規模言語モデルは、ユーザー表現学習のための行動エンコーダとしてますます利用されているが、アテンションマスキングがユーザー埋め込みの品質に与える影響は十分に研究されていない。本研究では、長期的で多様なユーザー行動を統合した大規模実世界Alipayデータで学習された、対比学習の統一フレームワーク内で、因果的、ハイブリッド、双方向のアテンションマスクを系統的に検証する。因果的アテンションから双方向アテンションへの移行時の学習ダイナミクスを改善するため、最適化過程中に将来のアテンションを段階的に開放する線形スケジューラの前に適用する、勾配ベースの事前ウォームアップ手法「勾配誘導型ソフトマスキング」を提案する。予測、選好、マーケティング感応度タスクを網羅する9つの産業用ユーザー認識ベンチマークで評価した結果、本手法は因果的、ハイブリッド、スケジューラのみのベースラインと比較して、より安定した学習と高品質な双方向表現を一貫してもたらし、かつデコーダ事前学習との互換性を維持することが示された。全体として、我々の知見は、デコーダのみのLLMを効果的なユーザー表現学習に適応させる際のマスキング設計と学習移行の重要性を浮き彫りにする。コードはhttps://github.com/JhCircle/Deepfind-GGSMで公開されている。
English
Decoder-only large language models are increasingly used as behavioral encoders for user representation learning, yet the impact of attention masking on the quality of user embeddings remains underexplored. In this work, we conduct a systematic study of causal, hybrid, and bidirectional attention masks within a unified contrastive learning framework trained on large-scale real-world Alipay data that integrates long-horizon heterogeneous user behaviors. To improve training dynamics when transitioning from causal to bidirectional attention, we propose Gradient-Guided Soft Masking, a gradient-based pre-warmup applied before a linear scheduler that gradually opens future attention during optimization. Evaluated on 9 industrial user cognition benchmarks covering prediction, preference, and marketing sensitivity tasks, our approach consistently yields more stable training and higher-quality bidirectional representations compared with causal, hybrid, and scheduler-only baselines, while remaining compatible with decoder pretraining. Overall, our findings highlight the importance of masking design and training transition in adapting decoder-only LLMs for effective user representation learning. Our code is available at https://github.com/JhCircle/Deepfind-GGSM.