ОБЛАСТЬ ПРИМЕНЕНИЯ: Эволюция промптов для повышения эффективности агентов
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness
December 17, 2025
Авторы: Zehua Pei, Hui-Ling Zhen, Shixiong Kai, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu
cs.AI
Аннотация
Агенты больших языковых моделей (LLM) все чаще развертываются в средах, генерирующих массовый динамический контекст. Однако сохраняется ключевое ограничение: хотя агенты имеют доступ к этому контексту, их статические промты не обладают механизмами для эффективного управления им, что приводит к повторяющимся ошибкам коррекции и улучшения. Для преодоления этого пробела в возможностях мы представляем SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE формулирует управление контекстом как задачу онлайн-оптимизации, синтезируя руководства из траекторий выполнения для автоматической эволюции промта агента. Мы предлагаем механизм Dual-Stream, который балансирует тактическую специфичность (устранение непосредственных ошибок) со стратегической обобщенностью (развитие долгосрочных принципов). Кроме того, мы вводим Perspective-Driven Exploration для максимизации охвата стратегий, повышая вероятность наличия у агента правильной стратегии для любой конкретной задачи. Эксперименты на бенчмарке HLE показывают, что SCOPE повышает процент успешного выполнения задач с 14,23% до 38,64% без вмешательства человека. Мы публикуем наш код по адресу https://github.com/JarvisPei/SCOPE.
English
Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bottleneck remains: while agents have access to this context, their static prompts lack the mechanisms to manage it effectively, leading to recurring Corrective and Enhancement failures. To address this capability gap, we introduce SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE frames context management as an online optimization problem, synthesizing guidelines from execution traces to automatically evolve the agent's prompt. We propose a Dual-Stream mechanism that balances tactical specificity (resolving immediate errors) with strategic generality (evolving long-term principles). Furthermore, we introduce Perspective-Driven Exploration to maximize strategy coverage, increasing the likelihood that the agent has the correct strategy for any given task. Experiments on the HLE benchmark show that SCOPE improves task success rates from 14.23\% to 38.64\% without human intervention. We make our code publicly available at https://github.com/JarvisPei/SCOPE.