Revisitando el Modelado de Contexto Largo desde la Perspectiva de la Eliminación de Ruido en el Contexto
Revisiting Long-context Modeling from Context Denoising Perspective
October 7, 2025
Autores: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI
Resumen
Los modelos de contexto largo (LCMs, por sus siglas en inglés) han demostrado un gran potencial en el procesamiento de secuencias largas, facilitando muchas aplicaciones del mundo real. El éxito de los LCMs puede atribuirse a su capacidad para localizar información crítica implícita dentro del contexto para realizar predicciones posteriores. Sin embargo, investigaciones recientes revelan que los LCMs suelen ser susceptibles al ruido contextual, es decir, a tokens irrelevantes que pueden desviar la atención del modelo. En este artículo, realizamos un análisis detallado del ruido contextual y proponemos una métrica efectiva, la puntuación de Gradiente Integrado (IG, por sus siglas en inglés), para detectar y cuantificar la información de ruido dentro del contexto. Nuestros hallazgos revelan que incluso una mitigación simple del ruido contextual detectado puede aumentar sustancialmente la atención del modelo en los tokens críticos y beneficiar las predicciones posteriores. Basándonos en esta idea, proponemos el Entrenamiento de Desruido de Contexto (CDT, por sus siglas en inglés), una estrategia de entrenamiento sencilla pero efectiva que mejora la atención en los tokens críticos mientras refuerza su influencia en las predicciones del modelo. Experimentos exhaustivos en cuatro tareas, bajo configuraciones de escalado de ventana de contexto y alineación de contexto largo, demuestran la superioridad del CDT. Notablemente, cuando se entrena con CDT, un modelo de código abierto de 8B puede alcanzar un rendimiento (50.92) comparable al de GPT-4o (51.00).
English
Long-context models (LCMs) have demonstrated great potential in processing
long sequences, facilitating many real-world applications. The success of LCMs
can be attributed to their ability to locate implicit critical information
within the context for further prediction. However, recent research reveals
that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens,
that can mislead model attention. In this paper, we conduct a fine-grained
analysis of the context noise and propose an effective metric, the Integrated
Gradient (IG) score, to detect and quantify the noise information within the
context. Our findings reveal that even simple mitigation of detected context
noise can substantially boost the model's attention on critical tokens and
benefit subsequent predictions. Building on this insight, we propose Context
Denoising Training (CDT), a straightforward yet effective training strategy
that improves attention on critical tokens while reinforcing their influence on
model predictions. Extensive experiments across four tasks, under both context
window scaling and long-context alignment settings, demonstrate the superiority
of CDT. Notably, when trained with CDT, an open-source 8B model can achieve
performance (50.92) comparable to GPT-4o (51.00).