BEREICH: Prompt-Evolution zur Steigerung der Agentenwirksamkeit
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness
December 17, 2025
papers.authors: Zehua Pei, Hui-Ling Zhen, Shixiong Kai, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu
cs.AI
papers.abstract
Große Sprachmodell-Agenten (LLM) werden zunehmend in Umgebungen eingesetzt, die massive, dynamische Kontexte generieren. Ein kritischer Engpass bleibt jedoch bestehen: Während Agenten Zugang zu diesem Kontext haben, fehlen ihren statischen Prompts die Mechanismen, um ihn effektiv zu verwalten, was zu wiederkehrenden Korrektur- und Verbesserungsfehlern führt. Um diese Fähigkeitslücke zu schließen, stellen wir SCOPE (Self-evolving Context Optimization via Prompt Evolution) vor. SCOPE fasst Kontextmanagement als ein Online-Optimierungsproblem auf und synthetisiert Richtlinien aus Ausführungspfaden, um den Prompt des Agenten automatisch weiterzuentwickeln. Wir schlagen einen Dual-Stream-Mechanismus vor, der taktische Spezifität (Lösen unmittelbarer Fehler) mit strategischer Allgemeingültigkeit (Weiterentwicklung langfristiger Prinzipien) in Einklang bringt. Darüber hinaus führen wir perspektivengesteuerte Exploration ein, um die Strategieabdeckung zu maximieren und so die Wahrscheinlichkeit zu erhöhen, dass der Agent für jede gegebene Aufgabe die richtige Strategie besitzt. Experimente auf dem HLE-Benchmark zeigen, dass SCOPE die Aufgaben-Erfolgsrate von 14,23 % auf 38,64 % steigert, ohne menschliches Eingreifen. Unser Code ist öffentlich verfügbar unter https://github.com/JarvisPei/SCOPE.
English
Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bottleneck remains: while agents have access to this context, their static prompts lack the mechanisms to manage it effectively, leading to recurring Corrective and Enhancement failures. To address this capability gap, we introduce SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE frames context management as an online optimization problem, synthesizing guidelines from execution traces to automatically evolve the agent's prompt. We propose a Dual-Stream mechanism that balances tactical specificity (resolving immediate errors) with strategic generality (evolving long-term principles). Furthermore, we introduce Perspective-Driven Exploration to maximize strategy coverage, increasing the likelihood that the agent has the correct strategy for any given task. Experiments on the HLE benchmark show that SCOPE improves task success rates from 14.23\% to 38.64\% without human intervention. We make our code publicly available at https://github.com/JarvisPei/SCOPE.