Опытно-ориентированная адаптация стратегий логического вывода в процессе вывода

Аннотация

Обеспечение адаптации агентных систем ИИ к изменению подходов к решению задач на основе взаимодействий после обучения остается фундаментальной проблемой. Хотя были предложены системы, которые обновляют и поддерживают память во время вывода, существующие архитектуры управляют системой лишь путем модификации текстового ввода для языковой модели или агента, что не позволяет изменять параметры сэмплирования, удалять инструменты, модифицировать системные промпты или переключаться между агентными и workflow-парадигмами. С другой стороны, системы с более гибкой адаптацией требуют офлайн-оптимизации и остаются статичными после развертывания. Мы представляем Experience-Guided Reasoner (EGuR) — систему, которая динамически генерирует специализированные стратегии (полные вычислительные процедуры, включающие вызовы LLM, инструменты, параметры сэмплирования и логику управления) во время вывода на основе накопленного опыта. Это достигается за счет метастратегии на основе LLM — стратегии, порождающей другие стратегии, — что позволяет адаптировать все компоненты стратегии (промпты, параметры сэмплирования, конфигурации инструментов и логику управления). EGuR функционирует через два компонента: Guide генерирует множество кандидатных стратегий с учетом текущей задачи и структурированной памяти прошлого опыта, а Consolidator интегрирует обратную связь от выполнения для улучшения будущей генерации стратегий. Это создает полные, готовые к выполнению стратегии, оптимизированные для каждой задачи, которые можно кэшировать, извлекать и выполнять по мере необходимости без растраты ресурсов. На пяти сложных тестах (AIME 2025, 3-ВЫП, и три задачи из Big Bench Extra Hard) EGuR демонстрирует до 14% улучшения точности по сравнению с сильнейшими базовыми методами при одновременном снижении вычислительных затрат до 111 раз, причем оба показателя улучшаются по мере накопления системой опыта.

English

Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.