ChatPaper.aiChatPaper

컨텍스트 디노이징 관점에서 장기 컨텍스트 모델링 재고

Revisiting Long-context Modeling from Context Denoising Perspective

October 7, 2025
저자: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang
cs.AI

초록

장문맥 모델(Long-context models, LCMs)은 긴 시퀀스를 처리하는 데 있어서 큰 잠재력을 보여주며, 다양한 실제 응용 분야를 촉진하고 있다. LCM의 성공은 문맥 내에서 암묵적으로 중요한 정보를 찾아내고 이를 통해 예측을 수행할 수 있는 능력에 기인한다. 그러나 최근 연구에 따르면, LCM은 종종 문맥 노이즈, 즉 관련 없는 토큰들에 취약하여 모델의 주의를 오도할 수 있다. 본 논문에서는 문맥 노이즈에 대한 세밀한 분석을 수행하고, 문맥 내 노이즈 정보를 탐지하고 정량화하기 위한 효과적인 지표인 통합 그래디언트(Integrated Gradient, IG) 점수를 제안한다. 연구 결과, 탐지된 문맥 노이즈를 단순히 완화하는 것만으로도 모델이 중요한 토큰에 주의를 기울이는 데 상당한 향상을 가져오며, 이는 후속 예측에도 긍정적인 영향을 미치는 것으로 나타났다. 이러한 통찰을 바탕으로, 본 논문에서는 중요한 토큰에 대한 주의를 개선하고 모델 예측에 미치는 영향을 강화하는 간단하면서도 효과적인 훈련 전략인 문맥 노이즈 제거 훈련(Context Denoising Training, CDT)을 제안한다. 문맥 윈도우 확장 및 장문맥 정렬 설정 하에서 네 가지 작업에 걸친 광범위한 실험을 통해 CDT의 우수성을 입증하였다. 특히, CDT로 훈련된 오픈소스 8B 모델은 GPT-4o(51.00)에 필적하는 성능(50.92)을 달성할 수 있음을 보여준다.
English
Long-context models (LCMs) have demonstrated great potential in processing long sequences, facilitating many real-world applications. The success of LCMs can be attributed to their ability to locate implicit critical information within the context for further prediction. However, recent research reveals that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens, that can mislead model attention. In this paper, we conduct a fine-grained analysis of the context noise and propose an effective metric, the Integrated Gradient (IG) score, to detect and quantify the noise information within the context. Our findings reveal that even simple mitigation of detected context noise can substantially boost the model's attention on critical tokens and benefit subsequent predictions. Building on this insight, we propose Context Denoising Training (CDT), a straightforward yet effective training strategy that improves attention on critical tokens while reinforcing their influence on model predictions. Extensive experiments across four tasks, under both context window scaling and long-context alignment settings, demonstrate the superiority of CDT. Notably, when trained with CDT, an open-source 8B model can achieve performance (50.92) comparable to GPT-4o (51.00).
PDF183October 9, 2025