Reconsidérer la modélisation de contexte long sous l'angle du débruitage contextuel
Revisiting Long-context Modeling from Context Denoising Perspective
October 7, 2025
papers.authors: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI
papers.abstract
Les modèles à contexte long (LCMs) ont démontré un grand potentiel dans le traitement de séquences longues, facilitant de nombreuses applications pratiques. Le succès des LCMs peut être attribué à leur capacité à localiser des informations critiques implicites au sein du contexte pour effectuer des prédictions ultérieures. Cependant, des recherches récentes révèlent que les LCMs sont souvent sensibles au bruit contextuel, c'est-à-dire à des tokens non pertinents, qui peuvent détourner l'attention du modèle. Dans cet article, nous menons une analyse fine du bruit contextuel et proposons une métrique efficace, le score de Gradient Intégré (IG), pour détecter et quantifier les informations de bruit au sein du contexte. Nos résultats montrent que même une atténuation simple du bruit contextuel détecté peut considérablement améliorer l'attention du modèle sur les tokens critiques et bénéficier aux prédictions subséquentes. Sur la base de cette observation, nous proposons l'Entraînement par Dénoyautage Contextuel (CDT), une stratégie d'entraînement simple mais efficace qui améliore l'attention sur les tokens critiques tout en renforçant leur influence sur les prédictions du modèle. Des expériences approfondies sur quatre tâches, dans des contextes de mise à l'échelle de la fenêtre contextuelle et d'alignement de contexte long, démontrent la supériorité du CDT. Notamment, lorsqu'il est entraîné avec le CDT, un modèle open-source de 8B peut atteindre une performance (50,92) comparable à celle de GPT-4o (51,00).
English
Long-context models (LCMs) have demonstrated great potential in processing
long sequences, facilitating many real-world applications. The success of LCMs
can be attributed to their ability to locate implicit critical information
within the context for further prediction. However, recent research reveals
that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens,
that can mislead model attention. In this paper, we conduct a fine-grained
analysis of the context noise and propose an effective metric, the Integrated
Gradient (IG) score, to detect and quantify the noise information within the
context. Our findings reveal that even simple mitigation of detected context
noise can substantially boost the model's attention on critical tokens and
benefit subsequent predictions. Building on this insight, we propose Context
Denoising Training (CDT), a straightforward yet effective training strategy
that improves attention on critical tokens while reinforcing their influence on
model predictions. Extensive experiments across four tasks, under both context
window scaling and long-context alignment settings, demonstrate the superiority
of CDT. Notably, when trained with CDT, an open-source 8B model can achieve
performance (50.92) comparable to GPT-4o (51.00).