ChatPaper.aiChatPaper

BEREIK: Promptevolutie voor Verbetering van Agent-effectiviteit

SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

December 17, 2025
Auteurs: Zehua Pei, Hui-Ling Zhen, Shixiong Kai, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu
cs.AI

Samenvatting

Large Language Model (LLM)-agents worden steeds vaker ingezet in omgevingen die massieve, dynamische contexten genereren. Er blijft echter een kritieke bottleneck bestaan: hoewel agents toegang hebben tot deze context, ontbreekt het hun statische prompts aan mechanismen om deze effectief te beheren, wat leidt tot terugkerende Correctieve en Verbeteringsfouten. Om deze capaciteitskloof te adresseren, introduceren we SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE benadert contextmanagement als een online optimalisatieprobleem en synthetiseert richtlijnen uit uitvoeringstraces om de prompt van de agent automatisch te laten evolueren. We stellen een Dual-Stream-mechanisme voor dat tactische specificiteit (het oplossen van directe fouten) in evenwicht brengt met strategische algemeenheid (het ontwikkelen van langetermijnprincipes). Verder introduceren we Perspective-Driven Exploration om de strategiedekking te maximaliseren, waardoor de kans groter wordt dat de agent over de juiste strategie beschikt voor een bepaalde taak. Experimenten op de HLE-benchmark tonen aan dat SCOPE de taaksuccespercentages verbetert van 14,23% naar 38,64% zonder menselijke tussenkomst. Onze code is openbaar beschikbaar op https://github.com/JarvisPei/SCOPE.
English
Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bottleneck remains: while agents have access to this context, their static prompts lack the mechanisms to manage it effectively, leading to recurring Corrective and Enhancement failures. To address this capability gap, we introduce SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE frames context management as an online optimization problem, synthesizing guidelines from execution traces to automatically evolve the agent's prompt. We propose a Dual-Stream mechanism that balances tactical specificity (resolving immediate errors) with strategic generality (evolving long-term principles). Furthermore, we introduce Perspective-Driven Exploration to maximize strategy coverage, increasing the likelihood that the agent has the correct strategy for any given task. Experiments on the HLE benchmark show that SCOPE improves task success rates from 14.23\% to 38.64\% without human intervention. We make our code publicly available at https://github.com/JarvisPei/SCOPE.
PDF52December 19, 2025