Los Modelos de Lenguaje Recursivos se Enfrentan a la Incertidumbre: La Sorprendente Efectividad de la Búsqueda de Programas Auto-Reflexiva para Contextos Largos

Resumen

El manejo de contextos largos sigue siendo un desafío central para los modelos de lenguaje: incluso con ventanas de contexto extendidas, los modelos a menudo fallan en extraer, razonar y utilizar de manera confiable la información a lo largo de contextos extensos. Trabajos recientes como los Modelos de Lenguaje Recursivos (RLM) han abordado este desafío mediante un enfoque agéntico que descompone contextos largos en sub-llamadas recursivas a través de interacción programática durante la inferencia. Si bien son prometedores, el éxito de los RLM depende críticamente de cómo se seleccionan estos programas de interacción con el contexto, un aspecto que ha permanecido en gran medida inexplorado. En este artículo, estudiamos este problema e introducimos SRLM, un marco que aumenta la interacción programática con el contexto mediante la Auto-Reflexión consciente de la incertidumbre. SRLM aprovecha tres señales intrínsecas: la auto-consistencia, la longitud del razonamiento y la confianza verbalizada. Estas sirven como indicadores complementarios de la incertidumbre interna del modelo, y el modelo las utiliza para evaluar y comparar programas candidatos de interacción con el contexto. Experimentos exhaustivos en diversos conjuntos de datos de referencia, longitudes de contexto y modelos base, muestran que SRLM supera consistentemente a los métodos de última generación, logrando una mejora de hasta el 22% sobre RLM bajo el mismo presupuesto de tiempo. Nuestros hallazgos demuestran que la recursión en sí misma no es el principal impulsor del rendimiento en RLM, y que una búsqueda programática simple con auto-reflexión puede igualar o superar a RLM sin requerir mecanismos de auto-consulta o recursión explícita. Encontramos que para longitudes de contexto dentro de la ventana del modelo, los RLM con recursión a menudo degradan el rendimiento en comparación con el modelo base, mientras que SRLM produce ganancias consistentes tanto en contextos cortos como largos. También encontramos que RLM es menos efectivo en tareas de naturaleza semánticamente intensiva, donde la búsqueda programática heurística es insuficiente y se requiere una comprensión contextual más amplia, mientras que la auto-reflexión en SRLM proporciona una señal semántica que guía mejor el razonamiento en estos escenarios.

English

Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.

Los Modelos de Lenguaje Recursivos se Enfrentan a la Incertidumbre: La Sorprendente Efectividad de la Búsqueda de Programas Auto-Reflexiva para Contextos Largos

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Resumen

Support