ChatPaper.aiChatPaper

Переосмысление моделирования длинного контекста с точки зрения очистки контекста

Revisiting Long-context Modeling from Context Denoising Perspective

October 7, 2025
Авторы: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI

Аннотация

Модели с длинным контекстом (LCM) продемонстрировали значительный потенциал в обработке длинных последовательностей, что способствует реализации многих практических приложений. Успех LCM можно объяснить их способностью находить скрытую критическую информацию в контексте для дальнейшего прогнозирования. Однако последние исследования показывают, что LCM часто подвержены влиянию контекстного шума, то есть нерелевантных токенов, которые могут вводить внимание модели в заблуждение. В данной работе мы проводим детальный анализ контекстного шума и предлагаем эффективную метрику — оценку интегрированного градиента (IG), — для обнаружения и количественной оценки шумовой информации в контексте. Наши результаты показывают, что даже простое устранение обнаруженного контекстного шума может существенно усилить внимание модели на критических токенах и улучшить последующие прогнозы. На основе этого наблюдения мы предлагаем стратегию обучения с очисткой контекста (Context Denoising Training, CDT), простой, но эффективный метод, который улучшает внимание на критических токенах и усиливает их влияние на прогнозы модели. Многочисленные эксперименты на четырех задачах, как в условиях масштабирования контекстного окна, так и в настройках выравнивания длинного контекста, демонстрируют превосходство CDT. Примечательно, что при обучении с использованием CDT открытая модель на 8 миллиардов параметров может достичь производительности (50.92), сопоставимой с GPT-4o (51.00).
English
Long-context models (LCMs) have demonstrated great potential in processing long sequences, facilitating many real-world applications. The success of LCMs can be attributed to their ability to locate implicit critical information within the context for further prediction. However, recent research reveals that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens, that can mislead model attention. In this paper, we conduct a fine-grained analysis of the context noise and propose an effective metric, the Integrated Gradient (IG) score, to detect and quantify the noise information within the context. Our findings reveal that even simple mitigation of detected context noise can substantially boost the model's attention on critical tokens and benefit subsequent predictions. Building on this insight, we propose Context Denoising Training (CDT), a straightforward yet effective training strategy that improves attention on critical tokens while reinforcing their influence on model predictions. Extensive experiments across four tasks, under both context window scaling and long-context alignment settings, demonstrate the superiority of CDT. Notably, when trained with CDT, an open-source 8B model can achieve performance (50.92) comparable to GPT-4o (51.00).
PDF183October 9, 2025