AMBITO: Evoluzione dei Prompt per Migliorare l'Efficacia degli Agenti
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness
December 17, 2025
Autori: Zehua Pei, Hui-Ling Zhen, Shixiong Kai, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu
cs.AI
Abstract
Gli agenti basati su Large Language Model (LLM) vengono sempre più impiegati in ambienti che generano contesti massivi e dinamici. Tuttavia, rimane un collo di bottiglia critico: sebbene gli agenti abbiano accesso a questo contesto, i loro prompt statici mancano dei meccanismi per gestirlo efficacemente, portando a ricorrenti fallimenti Correttivi e di Miglioramento. Per colmare questa lacuna capacitiva, introduciamo SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE inquadra la gestione del contesto come un problema di ottimizzazione online, sintetizzando linee guida dalle tracce di esecuzione per far evolvere automaticamente il prompt dell'agente. Proponiamo un meccanismo a Doppio Flusso (Dual-Stream) che bilancia la specificità tattica (risolvere errori immediati) con la generalità strategica (far evolvere principi a lungo termine). Inoltre, introduciamo l'Esplorazione Guidata dalla Prospettiva (Perspective-Driven Exploration) per massimizzare la copertura strategica, aumentando la probabilità che l'agente possieda la strategia corretta per qualsiasi compito assegnato. Esperimenti sul benchmark HLE mostrano che SCOPE migliora i tassi di successo dei task dal 14,23% al 38,64% senza intervento umano. Rendiamo pubblico il nostro codice all'indirizzo https://github.com/JarvisPei/SCOPE.
English
Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bottleneck remains: while agents have access to this context, their static prompts lack the mechanisms to manage it effectively, leading to recurring Corrective and Enhancement failures. To address this capability gap, we introduce SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE frames context management as an online optimization problem, synthesizing guidelines from execution traces to automatically evolve the agent's prompt. We propose a Dual-Stream mechanism that balances tactical specificity (resolving immediate errors) with strategic generality (evolving long-term principles). Furthermore, we introduce Perspective-Driven Exploration to maximize strategy coverage, increasing the likelihood that the agent has the correct strategy for any given task. Experiments on the HLE benchmark show that SCOPE improves task success rates from 14.23\% to 38.64\% without human intervention. We make our code publicly available at https://github.com/JarvisPei/SCOPE.