Como os LLMs Apenas-Decodificadores Percebem os Usuários? Repensando o Mascaramento de Atenção para a Aprendizagem de Representação de Usuários

Resumo

Os modelos de linguagem de grande porte (LLMs) apenas descodificadores estão a ser cada vez mais utilizados como codificadores comportamentais para a aprendizagem de representação de utilizadores, contudo o impacto da máscara de atenção na qualidade das incorporações (embeddings) de utilizador permanece pouco explorado. Neste trabalho, realizamos um estudo sistemático de máscaras de atenção causais, híbridas e bidirecionais dentro de uma estrutura unificada de aprendizagem contrastiva, treinada com dados em larga escala do mundo real do Alipay que integram comportamentos heterogéneos de utilizadores de longo horizonte. Para melhorar a dinâmica de treino na transição da atenção causal para a bidirecional, propomos o Mascaramento Suave Guiado por Gradiente (Gradient-Guided Soft Masking), um pré-aquecimento baseado em gradiente aplicado antes de um programador linear que abre gradualmente a atenção futura durante a otimização. Avaliado em 9 benchmarks industriais de cognição de utilizador que abrangem tarefas de previsão, preferência e sensibilidade de marketing, a nossa abordagem produz consistentemente um treino mais estável e representações bidirecionais de maior qualidade em comparação com linhas de base causais, híbridas e apenas com programador, mantendo-se compatível com o pré-treino do descodificador. Globalmente, os nossos resultados destacam a importância do design de mascaramento e da transição de treino na adaptação de LLMs apenas descodificadores para uma aprendizagem eficaz de representação de utilizador. O nosso código está disponível em https://github.com/JhCircle/Deepfind-GGSM.

English

Decoder-only large language models are increasingly used as behavioral encoders for user representation learning, yet the impact of attention masking on the quality of user embeddings remains underexplored. In this work, we conduct a systematic study of causal, hybrid, and bidirectional attention masks within a unified contrastive learning framework trained on large-scale real-world Alipay data that integrates long-horizon heterogeneous user behaviors. To improve training dynamics when transitioning from causal to bidirectional attention, we propose Gradient-Guided Soft Masking, a gradient-based pre-warmup applied before a linear scheduler that gradually opens future attention during optimization. Evaluated on 9 industrial user cognition benchmarks covering prediction, preference, and marketing sensitivity tasks, our approach consistently yields more stable training and higher-quality bidirectional representations compared with causal, hybrid, and scheduler-only baselines, while remaining compatible with decoder pretraining. Overall, our findings highlight the importance of masking design and training transition in adapting decoder-only LLMs for effective user representation learning. Our code is available at https://github.com/JhCircle/Deepfind-GGSM.

Como os LLMs Apenas-Decodificadores Percebem os Usuários? Repensando o Mascaramento de Atenção para a Aprendizagem de Representação de Usuários

How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

Resumo

Support