Neubetrachtung der Modellierung langer Kontexte aus der Perspektive der Kontextentrauschung
Revisiting Long-context Modeling from Context Denoising Perspective
October 7, 2025
papers.authors: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI
papers.abstract
Langkontextmodelle (LCMs) haben großes Potenzial bei der Verarbeitung langer Sequenzen gezeigt und ermöglichen viele praxisrelevante Anwendungen. Der Erfolg von LCMs lässt sich auf ihre Fähigkeit zurückführen, implizite Schlüsselinformationen innerhalb des Kontexts zu lokalisieren, um darauf aufbauende Vorhersagen zu treffen. Jüngste Forschungsergebnisse zeigen jedoch, dass LCMs oft anfällig für kontextuelles Rauschen sind, d. h. irrelevante Tokens, die die Aufmerksamkeit des Modells fehlleiten können. In diesem Artikel führen wir eine detaillierte Analyse des Kontextrauschens durch und schlagen eine effektive Metrik, den Integrated Gradient (IG)-Score, vor, um Rauschinformationen innerhalb des Kontexts zu erkennen und zu quantifizieren. Unsere Ergebnisse zeigen, dass bereits eine einfache Reduzierung des erkannten Kontextrauschens die Aufmerksamkeit des Modells auf kritische Tokens erheblich steigern und nachfolgende Vorhersagen verbessern kann. Aufbauend auf dieser Erkenntnis schlagen wir Context Denoising Training (CDT) vor, eine einfache, aber effektive Trainingsstrategie, die die Aufmerksamkeit auf kritische Tokens verbessert und gleichzeitig deren Einfluss auf die Modellvorhersagen verstärkt. Umfangreiche Experimente über vier Aufgaben hinweg, sowohl unter Kontextfensterskalierung als auch Langkontextausrichtung, demonstrieren die Überlegenheit von CDT. Bemerkenswerterweise kann ein Open-Source-8B-Modell, das mit CDT trainiert wurde, eine Leistung (50,92) erzielen, die mit GPT-4o (51,00) vergleichbar ist.
English
Long-context models (LCMs) have demonstrated great potential in processing
long sequences, facilitating many real-world applications. The success of LCMs
can be attributed to their ability to locate implicit critical information
within the context for further prediction. However, recent research reveals
that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens,
that can mislead model attention. In this paper, we conduct a fine-grained
analysis of the context noise and propose an effective metric, the Integrated
Gradient (IG) score, to detect and quantify the noise information within the
context. Our findings reveal that even simple mitigation of detected context
noise can substantially boost the model's attention on critical tokens and
benefit subsequent predictions. Building on this insight, we propose Context
Denoising Training (CDT), a straightforward yet effective training strategy
that improves attention on critical tokens while reinforcing their influence on
model predictions. Extensive experiments across four tasks, under both context
window scaling and long-context alignment settings, demonstrate the superiority
of CDT. Notably, when trained with CDT, an open-source 8B model can achieve
performance (50.92) comparable to GPT-4o (51.00).