Les modèles de langage récursifs face à l'incertitude : L'efficacité surprenante de la recherche de programmes par auto-réflexion pour les contextes longs

Résumé

La gestion des contextes longs reste un défi fondamental pour les modèles de langage : même avec des fenêtres de contexte étendues, les modèles échouent souvent à extraire, raisonner et utiliser de manière fiable l'information sur de longs contextes. Des travaux récents comme les *Recursive Language Models* (RLM) ont abordé ce défi de manière agentique en décomposant les contextes longs en sous-appels récursifs via une interaction programmatique lors de l'inférence. Bien que prometteuse, la réussite des RLM dépend crucialement de la manière dont ces programmes d'interaction contextuelle sont sélectionnés, un aspect largement inexploré. Dans cet article, nous étudions ce problème et présentons SRLM, un cadre qui enrichit l'interaction contextuelle programmatique par une *Auto-Réflexion* consciente de l'incertitude. SRLM exploite trois signaux intrinsèques : l'auto-cohérence, la longueur du raisonnement et la confiance verbalisée. Ceux-ci servent d'indicateurs complémentaires de l'incertitude interne du modèle, que ce dernier utilise pour évaluer et comparer les programmes candidats d'interaction contextuelle. Des expériences approfondies sur divers jeux de données de référence, longueurs de contexte et modèles de base montrent que SRLM surpasse constamment les meilleures méthodes de référence, avec une amélioration allant jusqu'à 22 % par rapport à RLM pour un budget temps équivalent. Nos résultats indiquent que la récursion en elle-même n'est pas le principal facteur de performance dans les RLM, et qu'une simple recherche de programme auto-réflexive peut égaler ou surpasser les RLM sans nécessiter d'auto-interrogation ni de mécanismes de récursion explicites. Nous constatons que pour des longueurs de contexte situées dans la fenêtre du modèle, les RLM avec récursion dégradent souvent les performances par rapport au modèle de base, tandis que SRLM procure des gains constants sur des contextes courts et longs. Nous observons également que les RLM sont moins efficaces pour les tâches à forte intensité sémantique, où une recherche heuristique de programme est insuffisante et où une compréhension contextuelle plus large est requise, tandis que l'auto-réflexion dans SRLM fournit un signal sémantique qui guide mieux le raisonnement dans ces scénarios.

English

Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.

Les modèles de langage récursifs face à l'incertitude : L'efficacité surprenante de la recherche de programmes par auto-réflexion pour les contextes longs

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Résumé

Support