ChatPaper.aiChatPaper

재귀 언어 모델과 불확실성: 긴 문맥 처리에서 자기 반성적 프로그램 탐색의 놀라운 효율성

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

March 7, 2026
저자: Keivan Alizadeh, Parshin Shojaee, Minsik Cho, Mehrdad Farajtabar
cs.AI

초록

장거리 컨텍스트 처리 능력은 언어 모델의 핵심 과제로 남아 있습니다: 확장된 컨텍스트 창이 제공되더라도 모델은 장거리 컨텍스트에 걸친 정보를 안정적으로 추출하고, 추론하며, 활용하는 데 종종 실패합니다. Recursive Language Models(RLM)와 같은 최근 연구들은 추론 시 프로그램적 상호작용을 통해 장거리 컨텍스트를 재귀적 하위 호출로 분해하는 에이전시 방식으로 이 문제에 접근했습니다. 유망하지만 RLM의 성공은 이러한 컨텍스트-상호작용 프로그램이 어떻게 선택되느냐에 크게 좌우되며, 이는 여전히 크게 탐구되지 않은 영역입니다. 본 논문에서는 이 문제를 연구하고, 불확실성 인식 자기 반성(Self-Reflection)을 통해 프로그램적 컨텍스트 상호작용을 강화하는 프레임워크인 SRLM을 소개합니다. SRLM은 자기 일관성(self consistency), 추론 길이(reasoning length), 언어화된 확신(verbalized confidence)이라는 세 가지 내재적 신호를 활용합니다. 이들은 모델의 내부 불확실성에 대한 보완적 지표로 작용하며, 모델은 이를 사용하여 후보 컨텍스트-상호작용 프로그램을 평가하고 비교합니다. 다양한 벤치마크 데이터셋, 컨텍스트 길이, 백본 모델을 통한 광범위한 실험 결과, SRLM이 최신 기준선을 꾸준히 능가하며, 동일한 시간 예산 하에서 RLM 대비 최대 22%의 성능 향상을 보여주었습니다. 우리의 연구 결과는 RLM에서 성능의 주요 동인이 재귀 자체가 아니며, 단순한 자기 반성적 프로그램 탐색으로도 자체 질의나 명시적 재귀 메커니즘 없이 RLM을 따라잡거나 능가할 수 있음을 보여줍니다. 모델의 컨텍스트 창 범위 내 길이에서는 재귀를 사용하는 RLM이 기본 모델 대비 성능을 저하시키는 경우가 많은 반면, SRLM은 짧은 컨텍스트와 긴 컨텍스트 모두에서 일관된 성능 향상을 가져옵니다. 또한 RLM은 휴리스틱 프로그램 탐색으로는 부족하고 더 넓은 컨텍스트 이해가 필요한 의미론적으로 집약적인 작업에서는 덜 효과적인 반면, SRLM의 자기 반성은 이러한 시나리오에서 추론을 더 잘 안내하는 의미론적 신호를 제공함을 발견했습니다.
English
Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.
PDF42March 19, 2026