LongAct: Aproveitando Padrões Intrínsecos de Ativação para Aprendizagem por Reforço de Contexto Longo

Resumo

O Aprendizado por Reforço (RL) emergiu como um fator crítico para aprimorar as capacidades de raciocínio dos Grandes Modelos de Linguagem (LLMs). Embora avanços recentes tenham se concentrado na engenharia de recompensas ou na síntese de dados, poucos estudos exploram as características intrínsecas de representação do modelo para orientar o processo de treinamento. Neste artigo, observamos primeiro a presença de ativações de alta magnitude nos vetores de consulta e chave durante o processamento de contextos longos. Inspirados pela quantização de modelos – que estabelece a criticidade de tais ativações de alta magnitude – e pela percepção de que o raciocínio de contexto longo exibe inerentemente uma estrutura esparsa, levantamos a hipótese de que esses pesos atuam como os fatores cruciais para uma otimização eficaz do modelo. Com base nessa percepção, propomos o LongAct, uma estratégia que muda de atualizações uniformes para atualizações esparsas guiadas por saliência. Ao atualizar seletivamente apenas os pesos associados a essas ativações significativas, o LongAct alcança uma melhoria aproximada de 8% no LongBench v2 e aprimora a generalização no benchmark RULER. Além disso, nosso método exibe notável universalidade, aumentando consistentemente o desempenho em diversos algoritmos de RL, como GRPO e DAPO. Estudos abrangentes de ablação sugerem que o foco nessas características salientes é a chave para desbloquear o potencial de contextos longos.

English

Reinforcement Learning (RL) has emerged as a critical driver for enhancing the reasoning capabilities of Large Language Models (LLMs). While recent advancements have focused on reward engineering or data synthesis, few studies exploit the model's intrinsic representation characteristics to guide the training process. In this paper, we first observe the presence of high-magnitude activations within the query and key vectors when processing long contexts. Drawing inspiration from model quantization -- which establishes the criticality of such high-magnitude activations -- and the insight that long-context reasoning inherently exhibits a sparse structure, we hypothesize that these weights serve as the pivotal drivers for effective model optimization. Based on this insight, we propose LongAct, a strategy that shifts from uniform to saliency-guided sparse updates. By selectively updating only the weights associated with these significant activations, LongAct achieves an approximate 8% improvement on LongBench v2 and enhances generalization on the RULER benchmark. Furthermore, our method exhibits remarkable universality, consistently boosting performance across diverse RL algorithms such as GRPO and DAPO. Extensive ablation studies suggest that focusing on these salient features is key to unlocking long-context potential.

LongAct: Aproveitando Padrões Intrínsecos de Ativação para Aprendizagem por Reforço de Contexto Longo

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

Resumo

Support