Het opnieuw bekijken van lange-contextmodellering vanuit het perspectief van contextdenoising
Revisiting Long-context Modeling from Context Denoising Perspective
October 7, 2025
Auteurs: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI
Samenvatting
Lang-contextmodellen (LCM's) hebben groot potentieel getoond in het verwerken van lange sequenties, wat veel praktische toepassingen mogelijk maakt. Het succes van LCM's kan worden toegeschreven aan hun vermogen om impliciete kritieke informatie binnen de context te lokaliseren voor verdere voorspelling. Recent onderzoek laat echter zien dat LCM's vaak gevoelig zijn voor contextuele ruis, d.w.z. irrelevante tokens, die de aandacht van het model kunnen misleiden. In dit artikel voeren we een gedetailleerde analyse uit van de contextuele ruis en stellen we een effectieve metriek voor, de Integrated Gradient (IG)-score, om de ruisinformatie binnen de context te detecteren en te kwantificeren. Onze bevindingen laten zien dat zelfs een eenvoudige vermindering van gedetecteerde contextuele ruis de aandacht van het model op kritieke tokens aanzienlijk kan verbeteren en latere voorspellingen ten goede kan komen. Op basis van dit inzicht stellen we Context Denoising Training (CDT) voor, een eenvoudige maar effectieve trainingsstrategie die de aandacht op kritieke tokens verbetert en tegelijkertijd hun invloed op modelvoorspellingen versterkt. Uitgebreide experimenten over vier taken, zowel onder contextvensterschaling als lang-contextuitlijning, tonen de superioriteit van CDT aan. Opmerkelijk is dat een open-source 8B-model, getraind met CDT, een prestatieniveau (50,92) kan bereiken dat vergelijkbaar is met GPT-4o (51,00).
English
Long-context models (LCMs) have demonstrated great potential in processing
long sequences, facilitating many real-world applications. The success of LCMs
can be attributed to their ability to locate implicit critical information
within the context for further prediction. However, recent research reveals
that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens,
that can mislead model attention. In this paper, we conduct a fine-grained
analysis of the context noise and propose an effective metric, the Integrated
Gradient (IG) score, to detect and quantify the noise information within the
context. Our findings reveal that even simple mitigation of detected context
noise can substantially boost the model's attention on critical tokens and
benefit subsequent predictions. Building on this insight, we propose Context
Denoising Training (CDT), a straightforward yet effective training strategy
that improves attention on critical tokens while reinforcing their influence on
model predictions. Extensive experiments across four tasks, under both context
window scaling and long-context alignment settings, demonstrate the superiority
of CDT. Notably, when trained with CDT, an open-source 8B model can achieve
performance (50.92) comparable to GPT-4o (51.00).