Linguaggi Ricorsivi e Incertezza: L'Efficacia Inaspettata della Ricerca di Programmi Auto-Riflessivi per Contesti Lunghi

Abstract

La gestione di contesti lunghi rimane una sfida fondamentale per i modelli linguistici: anche con finestre di contesto estese, i modelli spesso falliscono nell'estrarre, ragionare e utilizzare in modo affidabile le informazioni presenti in contesti estesi. Lavori recenti come i Modelli Linguistici Ricorsivi (RLM) hanno affrontato questa sfida in modo agentivo, scomponendo i contesti lunghi in sotto-chiamate ricorsive attraverso interazioni programmatiche durante l'inferenza. Sebbene promettente, il successo degli RLM dipende criticamente da come questi programmi di interazione col contesto vengono selezionati, un aspetto che è rimasto largamente inesplorato. In questo articolo, studiamo questo problema e introduciamo SRLM, un framework che potenzia l'interazione programmatica col contesto con un meccanismo di Auto-Riflessione (Self-Reflection) consapevole dell'incertezza. SRLM sfrutta tre segnali intrinseci: l'auto-consistenza, la lunghezza del ragionamento e la confidenza verbalizzata. Questi servono come indicatori complementari dell'incertezza interna del modello, che li utilizza per valutare e confrontare i programmi candidati per l'interazione col contesto. Esperimenti estesi su diversi dataset di benchmark, lunghezze del contesto e modelli di base, mostrano che SRLM supera costantemente i baseline allo stato dell'arte, ottenendo un miglioramento fino al 22% rispetto agli RLM a parità di budget temporale. I nostri risultati dimostrano che la ricorsione di per sé non è il motore primario delle prestazioni negli RLM, e una semplice ricerca di programmi auto-riflessiva può eguagliare o superare gli RLM senza richiedere meccanismi di auto-interrogazione o ricorsione esplicita. Troviamo che per lunghezze del contesto entro la finestra del modello, gli RLM con ricorsione spesso degradano le prestazioni rispetto al modello base, mentre SRLM produce guadagni consistenti sia in contesti brevi che lunghi. Troviamo inoltre che gli RLM sono meno efficaci in compiti di natura semanticamente intensiva, dove la ricerca euristica di programmi è insufficiente e è richiesta una comprensione contestuale più ampia, mentre l'auto-riflessione in SRLM fornisce un segnale semantico che indirizza meglio il ragionamento in questi scenari.

English

Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.

Linguaggi Ricorsivi e Incertezza: L'Efficacia Inaspettata della Ricerca di Programmi Auto-Riflessivi per Contesti Lunghi

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Abstract

Support