Rekursive Sprachmodelle begegnen der Unsicherheit: Die überraschende Wirksamkeit selbstreflexiver Programmsuche für lange Kontexte
Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
March 7, 2026
Autoren: Keivan Alizadeh, Parshin Shojaee, Minsik Cho, Mehrdad Farajtabar
cs.AI
Zusammenfassung
Die Verarbeitung langer Kontexte bleibt eine zentrale Herausforderung für Sprachmodelle: Selbst bei erweiterten Kontextfenstern gelingt es Modellen oft nicht zuverlässig, Informationen über lange Kontexte zu extrahieren, darüber zu schlussfolgern und sie zu nutzen. Neuere Arbeiten wie Recursive Language Models (RLM) haben sich dieser Herausforderung durch einen agentenbasierten Ansatz genähert, bei dem lange Kontexte während des Inferenzvorgangs durch programmatische Interaktion in rekursive Unteraufrufe zerlegt werden. Obwohl vielversprechend, hängt der Erfolg von RLM kritisch davon ab, wie diese Kontext-Interaktionsprogramme ausgewählt werden, was bisher weitgehend unerforscht blieb. In dieser Arbeit untersuchen wir dieses Problem und stellen SRLM vor, einen Rahmen, der die programmatische Kontextinteraktion durch unsicherheitsbewusste Selbstreflexion erweitert. SRLM nutzt drei intrinsische Signale: Selbstkonsistenz, Schlussfolgerungslänge und verbalisiertes Vertrauen. Diese dienen als komplementäre Indikatoren für die interne Unsicherheit eines Modells, und das Modell verwendet sie, um Kandidaten für Kontext-Interaktionsprogramme zu bewerten und zu vergleichen. Umfangreiche Experimente mit verschiedenen Benchmark-Datensätzen, Kontextlängen und Basismodellen zeigen, dass SRLM durchgängig state-of-the-art Baseline-Methoden übertrifft und unter demselben Zeitbudget eine Verbesserung von bis zu 22 % gegenüber RLM erzielt. Unsere Ergebnisse zeigen, dass Rekursion selbst nicht der primäre Leistungstreiber in RLM ist und eine einfache selbstreflektierende Programmsuche RLM erreichen oder übertreffen kann, ohne Selbstabfragen oder explizite Rekursionsmechanismen zu erfordern. Wir stellen fest, dass für Kontextlängen innerhalb des Modellfensters RLMs mit Rekursion die Leistung oft gegenüber dem Basismodell verschlechtern, während SRLM sowohl bei kurzen als auch bei langen Kontexten durchgängige Verbesserungen erzielt. Ebenso finden wir, dass RLM bei Aufgaben mit semantisch anspruchsvollem Charakter weniger effektiv ist, wo eine heuristische Programmsuche unzureichend ist und ein breiteres kontextuelles Verständnis erforderlich ist, während die Selbstreflexion in SRLM ein semantisches Signal liefert, das die Schlussfolgerung in diesen Szenarien besser steuert.
English
Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.