Come Percepiscono gli Utenti gli LLM Solo-Decodificatore? Ripensare la Maschera di Attenzione per l'Apprendimento della Rappresentazione Utente

Abstract

I modelli linguistici di grandi dimensioni di tipo decoder-only sono sempre più utilizzati come encoder comportamentali per l'apprendimento di rappresentazioni utente, tuttavia l'impatto del masking dell'attenzione sulla qualità degli embedding utente rimane poco esplorato. In questo lavoro, conduciamo uno studio sistematico delle maschere di attenzione causali, ibride e bidirezionali all'interno di un framework unificato di apprendimento contrastivo, addestrato su dati reali su larga scala di Alipay che integrano comportamenti utente eterogenei a lungo termine. Per migliorare la dinamica di addestramento durante la transizione dall'attenzione causale a quella bidirezionale, proponiamo il Gradient-Guided Soft Masking, un pre-riscaldamento basato sul gradiente applicato prima di uno scheduler lineare che apre gradualmente l'attenzione futura durante l'ottimizzazione. Valutato su 9 benchmark industriali di cognizione utente che coprono compiti di predizione, preferenza e sensibilità al marketing, il nostro approccio produce costantemente un addestramento più stabile e rappresentazioni bidirezionali di qualità superiore rispetto ai baseline causali, ibridi e con solo scheduler, rimanendo al contempo compatibile con il pre-addestramento del decoder. Nel complesso, i nostri risultati evidenziano l'importanza della progettazione del masking e della transizione di addestramento nell'adattare i LLM decoder-only per un apprendimento efficace delle rappresentazioni utente. Il nostro codice è disponibile all'indirizzo https://github.com/JhCircle/Deepfind-GGSM.

English

Decoder-only large language models are increasingly used as behavioral encoders for user representation learning, yet the impact of attention masking on the quality of user embeddings remains underexplored. In this work, we conduct a systematic study of causal, hybrid, and bidirectional attention masks within a unified contrastive learning framework trained on large-scale real-world Alipay data that integrates long-horizon heterogeneous user behaviors. To improve training dynamics when transitioning from causal to bidirectional attention, we propose Gradient-Guided Soft Masking, a gradient-based pre-warmup applied before a linear scheduler that gradually opens future attention during optimization. Evaluated on 9 industrial user cognition benchmarks covering prediction, preference, and marketing sensitivity tasks, our approach consistently yields more stable training and higher-quality bidirectional representations compared with causal, hybrid, and scheduler-only baselines, while remaining compatible with decoder pretraining. Overall, our findings highlight the importance of masking design and training transition in adapting decoder-only LLMs for effective user representation learning. Our code is available at https://github.com/JhCircle/Deepfind-GGSM.

Come Percepiscono gli Utenti gli LLM Solo-Decodificatore? Ripensare la Maschera di Attenzione per l'Apprendimento della Rappresentazione Utente

How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

Abstract

Support