LongAct: Aprovechamiento de los Patrones de Activación Intrínsecos para el Aprendizaje por Refuerzo de Contexto Largo

Resumen

El Aprendizaje por Refuerzo (RL) se ha consolidado como un impulsor crítico para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Si bien los avances recientes se han centrado en la ingeniería de recompensas o la síntesis de datos, pocos estudios explotan las características intrínsecas de representación del modelo para guiar el proceso de entrenamiento. En este artículo, observamos primero la presencia de activaciones de alta magnitud en los vectores de consulta y clave al procesar contextos largos. Tomando inspiración de la cuantización de modelos —que establece la criticidad de dichas activaciones de alta magnitud— y de la idea de que el razonamiento de contexto largo exhibe inherentemente una estructura dispersa, planteamos la hipótesis de que estos pesos actúan como los impulsores pivotales para una optimización efectiva del modelo. Basándonos en esta idea, proponemos LongAct, una estrategia que cambia de actualizaciones uniformes a actualizaciones dispersas guiadas por la prominencia. Al actualizar selectivamente solo los pesos asociados con estas activaciones significativas, LongAct logra una mejora aproximada del 8% en LongBench v2 y mejora la generalización en el benchmark RULER. Además, nuestro método exhibe una notable universalidad, impulsando consistentemente el rendimiento en diversos algoritmos de RL como GRPO y DAPO. Extensos estudios de ablación sugieren que centrarse en estas características prominentes es clave para desbloquear el potencial de los contextos largos.

English

Reinforcement Learning (RL) has emerged as a critical driver for enhancing the reasoning capabilities of Large Language Models (LLMs). While recent advancements have focused on reward engineering or data synthesis, few studies exploit the model's intrinsic representation characteristics to guide the training process. In this paper, we first observe the presence of high-magnitude activations within the query and key vectors when processing long contexts. Drawing inspiration from model quantization -- which establishes the criticality of such high-magnitude activations -- and the insight that long-context reasoning inherently exhibits a sparse structure, we hypothesize that these weights serve as the pivotal drivers for effective model optimization. Based on this insight, we propose LongAct, a strategy that shifts from uniform to saliency-guided sparse updates. By selectively updating only the weights associated with these significant activations, LongAct achieves an approximate 8% improvement on LongBench v2 and enhances generalization on the RULER benchmark. Furthermore, our method exhibits remarkable universality, consistently boosting performance across diverse RL algorithms such as GRPO and DAPO. Extensive ablation studies suggest that focusing on these salient features is key to unlocking long-context potential.

LongAct: Aprovechamiento de los Patrones de Activación Intrínsecos para el Aprendizaje por Refuerzo de Contexto Largo

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

Resumen

Support