ChatPaper.aiChatPaper

디코더 전용 LLM은 사용자를 어떻게 인식할까? 사용자 표현 학습을 위한 어텐션 마스킹 재고

How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

February 11, 2026
저자: Jiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Yang Chen, Xiaotong Lin, Wuliang Huang, Ziyi Gao, Xing Fu, Yu Cheng, Weiqiang Wang
cs.AI

초록

디코더 전용 대규모 언어 모델이 사용자 표현 학습을 위한 행동 인코더로 점점 더 많이 사용되고 있지만, 어텐션 마스킹이 사용자 임베딩 품질에 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구에서는 장기적 이질적 사용자 행동을 통합한 대규모 실질 알리페이 데이터로 학습된 통합 대조 학습 프레임워크 내에서 인과적, 하이브리드, 양방향 어텐션 마스크에 대한 체계적인 연구를 수행합니다. 인과적 어텐션에서 양방향 어텐션으로 전환 시 훈련 역학을 개선하기 위해, 최적화 과정에서 미래 어텐션을 점진적으로 여는 선형 스케줄러 전에 적용되는 그래디언트 기반 사전 워밍업 방법인 그래디언트 기반 소프트 마스킹을 제안합니다. 예측, 선호도, 마케팅 민감도 작업을 아우르는 9개의 산업용 사용자 인지 벤치마크에서 평가한 결과, 우리의 접근법은 인과적, 하이브리드, 스케줄러 전용 베이스라인 대비 더 안정적인 훈련과 더 높은 품질의 양방향 표현을 일관되게 생성하며, 디코더 사전 훈련과도 호환되는 것으로 나타났습니다. 전반적으로, 우리의 연구 결과는 효과적인 사용자 표현 학습을 위해 디코더 전용 LLM을 적용하는 데 마스킹 설계와 훈련 전환의 중요성을 강조합니다. 코드는 https://github.com/JhCircle/Deepfind-GGSM에서 확인할 수 있습니다.
English
Decoder-only large language models are increasingly used as behavioral encoders for user representation learning, yet the impact of attention masking on the quality of user embeddings remains underexplored. In this work, we conduct a systematic study of causal, hybrid, and bidirectional attention masks within a unified contrastive learning framework trained on large-scale real-world Alipay data that integrates long-horizon heterogeneous user behaviors. To improve training dynamics when transitioning from causal to bidirectional attention, we propose Gradient-Guided Soft Masking, a gradient-based pre-warmup applied before a linear scheduler that gradually opens future attention during optimization. Evaluated on 9 industrial user cognition benchmarks covering prediction, preference, and marketing sensitivity tasks, our approach consistently yields more stable training and higher-quality bidirectional representations compared with causal, hybrid, and scheduler-only baselines, while remaining compatible with decoder pretraining. Overall, our findings highlight the importance of masking design and training transition in adapting decoder-only LLMs for effective user representation learning. Our code is available at https://github.com/JhCircle/Deepfind-GGSM.
PDF222February 13, 2026