Revisitando a Modelagem de Contexto Longo sob a Perspectiva de Desruído de Contexto
Revisiting Long-context Modeling from Context Denoising Perspective
October 7, 2025
Autores: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI
Resumo
Modelos de contexto longo (LCMs) têm demonstrado grande potencial no processamento de sequências longas, facilitando muitas aplicações do mundo real. O sucesso dos LCMs pode ser atribuído à sua capacidade de localizar informações críticas implícitas dentro do contexto para previsões subsequentes. No entanto, pesquisas recentes revelam que os LCMs são frequentemente suscetíveis a ruídos contextuais, ou seja, tokens irrelevantes, que podem desviar a atenção do modelo. Neste artigo, realizamos uma análise detalhada do ruído contextual e propomos uma métrica eficaz, o escore de Gradiente Integrado (IG), para detectar e quantificar as informações de ruído dentro do contexto. Nossas descobertas revelam que mesmo uma mitigação simples do ruído contextual detectado pode aumentar substancialmente a atenção do modelo em tokens críticos e beneficiar previsões subsequentes. Com base nessa percepção, propomos o Treinamento de Redução de Ruído Contextual (CDT), uma estratégia de treinamento direta, porém eficaz, que melhora a atenção em tokens críticos enquanto reforça sua influência nas previsões do modelo. Experimentos extensos em quatro tarefas, tanto em cenários de escalonamento de janela de contexto quanto de alinhamento de contexto longo, demonstram a superioridade do CDT. Notavelmente, quando treinado com CDT, um modelo de código aberto de 8B pode alcançar desempenho (50,92) comparável ao GPT-4o (51,00).
English
Long-context models (LCMs) have demonstrated great potential in processing
long sequences, facilitating many real-world applications. The success of LCMs
can be attributed to their ability to locate implicit critical information
within the context for further prediction. However, recent research reveals
that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens,
that can mislead model attention. In this paper, we conduct a fine-grained
analysis of the context noise and propose an effective metric, the Integrated
Gradient (IG) score, to detect and quantify the noise information within the
context. Our findings reveal that even simple mitigation of detected context
noise can substantially boost the model's attention on critical tokens and
benefit subsequent predictions. Building on this insight, we propose Context
Denoising Training (CDT), a straightforward yet effective training strategy
that improves attention on critical tokens while reinforcing their influence on
model predictions. Extensive experiments across four tasks, under both context
window scaling and long-context alignment settings, demonstrate the superiority
of CDT. Notably, when trained with CDT, an open-source 8B model can achieve
performance (50.92) comparable to GPT-4o (51.00).