Recursieve Taalmodellen Ontmoeten Onzekerheid: De Verrassende Effectiviteit van Zelfreflectieve Programmazoektocht voor Lange Context
Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
March 7, 2026
Auteurs: Keivan Alizadeh, Parshin Shojaee, Minsik Cho, Mehrdad Farajtabar
cs.AI
Samenvatting
Het verwerken van lange contexten blijft een kernuitdaging voor taalmodellen: zelfs met uitgebreide contextvensters slagen modellen er vaak niet in om informatie uit lange contexten betrouwbaar te extraheren, over te redeneren en te gebruiken. Recente werken, zoals Recursive Language Models (RLM), hebben deze uitdaging benaderd via een agent-gebaseerde aanpak waarbij lange contexten tijdens de inferentie worden opgedeeld in recursieve sub-aanroepen via programmatische interactie. Hoewel veelbelovend, hangt het succes van RLM cruciaal af van de selectie van deze context-interactieprogramma's, een aspect dat grotendeels onontgonnen is gebleven. In dit artikel bestuderen we dit probleem en introduceren we SRLM, een framework dat programmatische contextinteractie versterkt met onzekerheidsbewuste zelfreflectie (Self-Reflection). SRLM benut drie intrinsieke signalen: zelfconsistentie, redeneerlengte en verbaal uitgedrukt vertrouwen. Deze dienen als complementaire indicatoren van de interne onzekerheid van een model, en het model gebruikt ze om kandidaat-contextinteractieprogramma's te evalueren en vergelijken. Uitgebreide experimenten met diverse benchmarkdatasets, contextlengtes en basismodellen tonen aan dat SRLM consistent state-of-the-art baseline-methoden overtreft, met een verbetering tot 22% ten opzichte van RLM binnen hetzelfde tijdbudget. Onze bevindingen tonen aan dat recursie op zich niet de primaire drijvende kracht is achter de prestaties van RLM, en dat een eenvoudige zoektocht met zelfreflectie in programma's RLM kan evenaren of overtreffen zonder zelfbevraging of expliciete recursiemechanismen nodig te hebben. Wij constateren dat voor contextlengtes binnen het modelvenster, RLM's met recursie de prestaties vaak verslechteren ten opzichte van het basismodel, terwijl SRLM consistente verbeteringen oplevert bij zowel korte als lange contexten. Wij stellen ook vast dat RLM minder effectief is bij taken met een semantisch intensief karakter, waar heuristisch programmazoeken ontoereikend is en een breder contextueel begrip vereist is, terwijl zelfreflectie in SRLM een semantisch signaal biedt dat het redeneren in dergelijke scenario's beter stuurt.
English
Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.