Ripensare la Modellazione del Contesto Lungo dalla Prospettiva del Denoising del Contesto
Revisiting Long-context Modeling from Context Denoising Perspective
October 7, 2025
Autori: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI
Abstract
I modelli a contesto lungo (LCM) hanno dimostrato un grande potenziale nell'elaborazione di sequenze lunghe, facilitando molte applicazioni nel mondo reale. Il successo degli LCM può essere attribuito alla loro capacità di individuare informazioni critiche implicite all'interno del contesto per effettuare previsioni più accurate. Tuttavia, ricerche recenti rivelano che gli LCM sono spesso suscettibili al rumore contestuale, ovvero token irrilevanti, che possono distrarre l'attenzione del modello. In questo articolo, conduciamo un'analisi dettagliata del rumore contestuale e proponiamo una metrica efficace, il punteggio di Gradiente Integrato (IG), per rilevare e quantificare le informazioni rumorose all'interno del contesto. I nostri risultati mostrano che anche una semplice mitigazione del rumore contestuale rilevato può migliorare significativamente l'attenzione del modello sui token critici e favorire le previsioni successive. Basandoci su questa intuizione, proponiamo l'Addestramento di Denoising Contestuale (CDT), una strategia di training semplice ma efficace che migliora l'attenzione sui token critici rafforzandone l'influenza sulle previsioni del modello. Esperimenti estesi su quattro task, sia in contesti di scalabilità della finestra contestuale che di allineamento a contesto lungo, dimostrano la superiorità del CDT. In particolare, quando addestrato con CDT, un modello open-source da 8B può raggiungere prestazioni (50.92) paragonabili a quelle di GPT-4o (51.00).
English
Long-context models (LCMs) have demonstrated great potential in processing
long sequences, facilitating many real-world applications. The success of LCMs
can be attributed to their ability to locate implicit critical information
within the context for further prediction. However, recent research reveals
that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens,
that can mislead model attention. In this paper, we conduct a fine-grained
analysis of the context noise and propose an effective metric, the Integrated
Gradient (IG) score, to detect and quantify the noise information within the
context. Our findings reveal that even simple mitigation of detected context
noise can substantially boost the model's attention on critical tokens and
benefit subsequent predictions. Building on this insight, we propose Context
Denoising Training (CDT), a straightforward yet effective training strategy
that improves attention on critical tokens while reinforcing their influence on
model predictions. Extensive experiments across four tasks, under both context
window scaling and long-context alignment settings, demonstrate the superiority
of CDT. Notably, when trained with CDT, an open-source 8B model can achieve
performance (50.92) comparable to GPT-4o (51.00).