ChatPaper.aiChatPaper

소음 속에서 길을 잃다: 추론 모델이 맥락적 방해 요소에 실패하는 이유

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

January 12, 2026
저자: Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo
cs.AI

초록

최근 추론 모델 및 에이전트형 AI 시스템의 발전으로 다양한 외부 정보에 대한 의존도가 높아지고 있습니다. 그러나 이러한 변화는 본질적으로 노이즈가 포함된 입력 컨텍스트를 도입하는데, 이는 현재의 정제된 벤치마크가 포착하지 못하는 현실입니다. 본 연구에서는 RAG, 추론, 얼라인먼트, 도구 사용 작업 등 11개 데이터셋에서 무작위 문서, 관련 없는 채팅 기록, 강력한 부정적 방해 요소 등 다양한 노이즈 유형에 대한 모델 강건성을 체계적으로 평가하는 포괄적인 벤치마크인 NoisyBench를 소개합니다. 우리의 평가 결과, 최첨단 모델들이 컨텍스트ual 방해 요소에 직면할 경우 최대 80%에 이르는 치명적인 성능 저하가 발생하는 것으로 나타났습니다. 중요한 것은, 에이전트 워크플로우가 노이즈가 포함된 도구 출력을 과도하게 신뢰함으로써 이러한 오류를 종종 증폭시키며, 방해 요소가 적대적 의도 없이도 새로운 유형의 오얼라인먼트(misalignment)를 유발할 수 있다는 점입니다. 우리는 프롬프팅, 컨텍스트 엔지니어링, SFT(지도하 미세조정), 결과-보상 기반 RL만으로는 강건성을 보장할 수 없음을 확인했습니다. 이와 대조적으로, 우리가 제안하는 Rationale-Aware Reward(RARE)는 노이즈 내 유용한 정보 식별을 장려함으로써 복원력을 크게 강화합니다. 마지막으로, 테스트 시 계산량 증가가 노이즈 환경에서 더 나쁜 성능으로 이어지는 역스케일링(inverse scaling) 경향을 발견하고, 어텐션 시각화를 통해 모델이 방해 요소 토큰에 지나치게 집중하는 것을 확인하여 차세대 강건한 추론 능력을 가진 에이전트 구축에 중요한 통찰을 제공합니다.
English
Recent advances in reasoning models and agentic AI systems have led to an increased reliance on diverse external information. However, this shift introduces input contexts that are inherently noisy, a reality that current sanitized benchmarks fail to capture. We introduce NoisyBench, a comprehensive benchmark that systematically evaluates model robustness across 11 datasets in RAG, reasoning, alignment, and tool-use tasks against diverse noise types, including random documents, irrelevant chat histories, and hard negative distractors. Our evaluation reveals a catastrophic performance drop of up to 80% in state-of-the-art models when faced with contextual distractors. Crucially, we find that agentic workflows often amplify these errors by over-trusting noisy tool outputs, and distractors can trigger emergent misalignment even without adversarial intent. We find that prompting, context engineering, SFT, and outcome-reward only RL fail to ensure robustness; in contrast, our proposed Rationale-Aware Reward (RARE) significantly strengthens resilience by incentivizing the identification of helpful information within noise. Finally, we uncover an inverse scaling trend where increased test-time computation leads to worse performance in noisy settings and demonstrate via attention visualization that models disproportionately focus on distractor tokens, providing vital insights for building the next generation of robust, reasoning-capable agents.
PDF323January 31, 2026