Рекуррентные языковые модели встречаются с неопределенностью: удивительная эффективность саморефлексивного поиска программ для длинных контекстов
Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
March 7, 2026
Авторы: Keivan Alizadeh, Parshin Shojaee, Minsik Cho, Mehrdad Farajtabar
cs.AI
Аннотация
Обработка длинных контекстов остается ключевой проблемой для языковых моделей: даже при расширенных окнах контекста модели часто не могут надежно извлекать, анализировать и использовать информацию из протяженных контекстов. Недавние работы, такие как рекурсивные языковые модели (RLM), подошли к решению этой задачи с помощью агентного подхода, декомпозируя длинные контексты на рекурсивные подвызовы посредством программного взаимодействия на этапе вывода. Несмотря на перспективность, успех RLM критически зависит от выбора этих программ контекстного взаимодействия, что до сих пор оставалось малоизученным. В данной статье мы исследуем эту проблему и представляем SRLM — фреймворк, дополняющий программное взаимодействие с контекстом саморефлексией с учетом неопределенности. SRLM использует три внутренних сигнала: самосогласованность, длину рассуждений и вербализованную уверенность. Эти сигналы служат комплементарными индикаторами внутренней неопределенности модели, которую она использует для оценки и сравнения кандидатных программ контекстного взаимодействия. Масштабные эксперименты на различных наборах данных, длинах контекста и базовых моделях показывают, что SRLM стабильно превосходит современные базовые методы, демонстрируя до 22% улучшения по сравнению с RLM при одинаковом бюджете времени. Наши результаты свидетельствуют, что рекурсия сама по себе не является основным драйвером производительности в RLM, и простой саморефлексивный поиск программ может соответствовать или превзойти RLM без необходимости само-запросов или явных механизмов рекурсии. Мы обнаружили, что для длин контекста в пределах окна модели RLM с рекурсией часто ухудшают производительность по сравнению с базовой моделью, тогда как SRLM обеспечивает стабильное улучшение как для коротких, так и для длинных контекстов. Также мы выявили, что RLM менее эффективны в задачах с семантически насыщенной природой, где эвристический поиск программ недостаточен и требуется более широкое контекстное понимание, в то время как саморефлексия в SRLM предоставляет семантический сигнал, который лучше направляет рассуждения в таких сценариях.
English
Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.