LongAct: Benutting van Intrinsieke Activatiepatronen voor Reinforcement Learning met Lange Context

Samenvatting

Versterkend Leren (Reinforcement Learning, RL) is naar voren gekomen als een cruciale aanjager voor het verbeteren van de redeneercapaciteiten van Grote Taalmodellen (Large Language Models, LLM's). Hoewel recente vooruitgang zich richtte op beloningsontwerp of datasynthese, benutten weinig onderzoeken de intrinsieke representatiekenmerken van het model om het trainingsproces te sturen. In dit artikel observeren we eerst de aanwezigheid van activaties met een hoge magnitude in de query- en sleutelvectoren bij het verwerken van lange contexten. Geïnspireerd door modelkwantisatie – die het cruciale belang van dergelijke activaties met hoge magnitude aantoont – en het inzicht dat redeneren over lange contexten van nature een sparse structuur vertoont, veronderstellen we dat deze gewichten de cruciale aanjagers zijn voor effectieve modeloptimalisatie. Op basis van dit inzicht stellen we LongAct voor, een strategie die verschuift van uniforme naar op salientie gebaseerde sparse updates. Door selectief alleen de gewichten bij te werken die zijn gekoppeld aan deze significante activaties, behaalt LongAct een verbetering van ongeveer 8% op LongBench v2 en verbetert het de generalisatie op de RULER-benchmark. Bovendien toont onze methode een opmerkelijke universaliteit, waarbij de prestaties consistent worden verbeterd across diverse RL-algoritmen zoals GRPO en DAPO. Uitgebreide ablatiestudies suggereren dat focussen op deze salientiekenmerken de sleutel is om het potentieel voor lange contexten te ontsluiten.

English

Reinforcement Learning (RL) has emerged as a critical driver for enhancing the reasoning capabilities of Large Language Models (LLMs). While recent advancements have focused on reward engineering or data synthesis, few studies exploit the model's intrinsic representation characteristics to guide the training process. In this paper, we first observe the presence of high-magnitude activations within the query and key vectors when processing long contexts. Drawing inspiration from model quantization -- which establishes the criticality of such high-magnitude activations -- and the insight that long-context reasoning inherently exhibits a sparse structure, we hypothesize that these weights serve as the pivotal drivers for effective model optimization. Based on this insight, we propose LongAct, a strategy that shifts from uniform to saliency-guided sparse updates. By selectively updating only the weights associated with these significant activations, LongAct achieves an approximate 8% improvement on LongBench v2 and enhances generalization on the RULER benchmark. Furthermore, our method exhibits remarkable universality, consistently boosting performance across diverse RL algorithms such as GRPO and DAPO. Extensive ablation studies suggest that focusing on these salient features is key to unlocking long-context potential.

LongAct: Benutting van Intrinsieke Activatiepatronen voor Reinforcement Learning met Lange Context

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

Samenvatting

Support