ChatPaper.aiChatPaper

Modelos de Linguagem Recursivos Enfrentam a Incerteza: A Eficácia Surpreendente da Busca de Programas Autorreflexivos para Contextos Longos

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

March 7, 2026
Autores: Keivan Alizadeh, Parshin Shojaee, Minsik Cho, Mehrdad Farajtabar
cs.AI

Resumo

O processamento de contexto longo continua a ser um desafio central para os modelos de linguagem: mesmo com janelas de contexto estendidas, os modelos frequentemente falham em extrair, raciocinar e utilizar informações de forma confiável em contextos extensos. Trabalhos recentes, como os Modelos de Linguagem Recursiva (RLM), abordaram esse desafio de forma agentiva, decompondo contextos longos em subchamadas recursivas por meio de interação programática durante a inferência. Embora promissor, o sucesso do RLM depende criticamente de como esses programas de interação com o contexto são selecionados, um aspecto que permaneceu largamente inexplorado. Neste artigo, estudamos esse problema e introduzimos o SRLM, uma estrutura que amplia a interação programática com o contexto por meio da Auto-reflexão consciente da incerteza. O SRLM aproveita três sinais intrínsecos: autoconsistência, extensão do raciocínio e confiança verbalizada. Estes servem como indicadores complementares da incerteza interna do modelo, que os utiliza para avaliar e comparar programas candidatos de interação com o contexto. Experimentos extensos em diversos conjuntos de dados de referência, comprimentos de contexto e modelos base mostram que o SRLM supera consistentemente os baseline state-of-the-art, alcançando uma melhoria de até 22% em relação ao RLM sob o mesmo orçamento de tempo. Nossas descobertas mostram que a recursão em si não é o principal impulsionador de desempenho no RLM, e uma simples busca programática autorreflexiva pode igualar ou superar o RLM sem exigir mecanismos de autoconsulta ou recursão explícita. Verificamos que, para comprimentos de contexto dentro da janela do modelo, os RLMs com recursão frequentemente degradam o desempenho em relação ao modelo base, enquanto o SRLM produz ganhos consistentes em contextos curtos e longos. Também constatamos que o RLM é menos eficaz em tarefas de natureza semanticamente intensiva, onde a busca programática heurística é insuficiente e uma compreensão contextual mais ampla é necessária, enquanto a autorreflexão no SRLM fornece um sinal semântico que melhor direciona o raciocínio nesses cenários.
English
Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.
PDF42March 19, 2026