LongAct: Nutzung intrinsischer Aktivierungsmuster für Reinforcement Learning mit langem Kontext

Zusammenfassung

Reinforcement Learning (RL) hat sich als entscheidender Treiber für die Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs) erwiesen. Während sich neuere Fortschritte auf Reward-Engineering oder Datensynthese konzentrierten, nutzen nur wenige Studien die intrinsischen Repräsentationscharakteristika des Modells, um den Trainingsprozess zu steuern. In diesem Beitrag beobachten wir zunächst das Auftreten von Aktivierungen mit hoher Amplitude innerhalb der Query- und Key-Vektoren bei der Verarbeitung langer Kontexte. Inspiriert von der Modellquantisierung – welche die Kritikalität solcher Aktivierungen mit hoher Amplitude belegt – und der Erkenntnis, dass Long-Context-Reasoning inhärent eine sparse Struktur aufweist, stellen wir die Hypothese auf, dass diese Gewichte die entscheidenden Treiber für eine effektive Modelloptimierung sind. Aufbauend auf dieser Erkenntnis schlagen wir LongAct vor, eine Strategie, die von gleichmäßigen zu salienzgesteuerten sparse Updates wechselt. Indem nur die mit diesen signifikanten Aktivierungen verbundenen Gewichte selektiv aktualisiert werden, erzielt LongAct eine Verbesserung von etwa 8 % auf LongBench v2 und steigert die Generalisierungsfähigkeit auf dem RULER-Benchmark. Darüber hinaus weist unsere Methode eine bemerkenswerte Universalität auf, indem sie konsistent die Leistung über verschiedene RL-Algorithmen wie GRPO und DAPO hinweg steigert. Umfangreiche Ablationsstudien legen nahe, dass die Fokussierung auf diese salienten Merkmale der Schlüssel zur Entfesselung des Long-Context-Potenzials ist.

English

Reinforcement Learning (RL) has emerged as a critical driver for enhancing the reasoning capabilities of Large Language Models (LLMs). While recent advancements have focused on reward engineering or data synthesis, few studies exploit the model's intrinsic representation characteristics to guide the training process. In this paper, we first observe the presence of high-magnitude activations within the query and key vectors when processing long contexts. Drawing inspiration from model quantization -- which establishes the criticality of such high-magnitude activations -- and the insight that long-context reasoning inherently exhibits a sparse structure, we hypothesize that these weights serve as the pivotal drivers for effective model optimization. Based on this insight, we propose LongAct, a strategy that shifts from uniform to saliency-guided sparse updates. By selectively updating only the weights associated with these significant activations, LongAct achieves an approximate 8% improvement on LongBench v2 and enhances generalization on the RULER benchmark. Furthermore, our method exhibits remarkable universality, consistently boosting performance across diverse RL algorithms such as GRPO and DAPO. Extensive ablation studies suggest that focusing on these salient features is key to unlocking long-context potential.

LongAct: Nutzung intrinsischer Aktivierungsmuster für Reinforcement Learning mit langem Kontext

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

Zusammenfassung

Support